![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
abc200941410128
这个作者很懒,什么都没留下…
展开
-
Hive分区表新增字段后用MR查询为null的bug及解决方法
1、问题描述最近工作需要,需对近两个月hive分区表增加新的字段(公司平台,hive版本2.*),利用alter table table_name add columns (col_name string ) 新增字段后,向已存在分区中插入数据,结果新增字段的值全部为null。2、问题追溯首先用MR引擎查询为空,结果如下:怀疑是不是数据没有插入,但是看日志明显已经写入成功了;然后换了...原创 2019-12-28 10:16:15 · 1179 阅读 · 0 评论 -
将mysql中时间类型的字段导入hive中遇到的坑(时间错啦)
一、问题发现与分析问题:用公司的大数据平台(DataX)导数,已经开发上线一个多月的一批报表,突然有同事说有个报表数据不准。出在时间字段上。分析:1、先看了原数据MySQL字段类型为datetime,目标字段为timestamp类型;2、经发现所有时间的差距都是8小时,怀疑是因为时区转换的原因;3、对比其他表,看看是大范围现象还是特殊情况,发现其他的同样情况字段的一样没有问题,也有改变...原创 2019-11-12 20:45:49 · 5656 阅读 · 0 评论 -
一文读懂大数据计算框架与平台
1. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作,转载 2017-09-29 14:16:41 · 2792 阅读 · 0 评论 -
一文读懂Hive分析窗口函数(hive做累计、分组、排序、层次等计算)
分析窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的转载 2017-10-31 22:26:47 · 36108 阅读 · 0 评论 -
sqoop在MySQL和hive间导数遇见的几种问题
无论是新版本,还是老版本,遇到的问题大部分都是相同的。下面解决问题的方法仅供借鉴1.拒绝连接的错误表现是什么?2.表不存在该如何解决?3.null字段填充符该如何指定?最近利用sqoop在MySQL和hive间相互导数时遇见如下几种问题:1、ip相互能够ping通,但是mysql拒绝hive的访问(已经用了root权限)。该问题出在mysql的权限设定上,一般本地电原创 2017-10-31 22:59:32 · 3659 阅读 · 0 评论 -
神经网络和深度学习简史(全)
神经网络和深度学习简史(全)Eileen• 2017年11月11日 • 深度学习 • 阅读 352 如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,2015年似乎才是这场海啸全力冲击自然语言处理(NLP)会议的一年。 深度学习掀起海啸如今,深度学习浪潮拍打计算机语言的海岸已有好几年,但是,2015年似乎才是这场海啸全力冲击自然语言处理(N转载 2017-12-04 14:54:00 · 9653 阅读 · 0 评论 -
向CDH集群增加虚拟机节点平衡数据操作
注:前提是已经有了新的虚拟机节点和安装了相应的cdh,修改主机名,ip,mac等操作自行百度哈。本文只对已经安装好cdh的虚拟机节点加入集群平衡数据操作。1、查看虚拟机 virsh list -all2、修改虚拟机的配置(CPU、内存、磁盘) 切换到相应虚拟机目录下 cd /ecars/vm/cdhslave07 vim libvirt.xml3、去掉和定义虚拟机 虚拟机名称原创 2018-02-05 21:50:10 · 3404 阅读 · 0 评论 -
在集群上的pyspark中配置ipython notebook,实现网页远程调用。
接着之前的在服务器上远程网页调用python,现实中,大数据集无法单服务器处理时,需要调用集群的pyspark,又需要图形显示和脚本运行调试等的方便性,这时也可以类似服务器远程使用ipython notebook一样。 前提是集群上已经安装了pyspark和ipython notebook,我自己的是已经安装了Anaconda。在此只说配置。基本安装步骤:1、首先创建一个与PyS...原创 2018-03-11 16:20:09 · 3710 阅读 · 3 评论