Hadoop生态圈
文章平均质量分 71
Soyoger
申明:个人微信公众号:AI技术研习社,公众号ID:ai2club。本博客只是用来学习,并不从事任何商业活动,其内容是自己总结或者来自互联网搜索到的,并没有过多关注版权问题,如有侵权内容,请私信我进行删除,谢谢。本博客内容主要围绕计算机领域热点技术和工作内容,不涉及版权问题,任何人可以查看、转载。
展开
-
hadoop中的filesystem和localfilesystem
在这一节我们要深入了解Hadoop的FileSystem类——这是与与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。使用hadoop URL读数据从hadoop文件系统中读取文件的最简单的方法之一便原创 2017-06-02 15:38:42 · 5928 阅读 · 4 评论 -
hive几种执行sql的方式总结
在命令行界面下,我们来看看hive sql的几种执行方式:root@hadoop-senior hive-0.13.1]$ bin/hive -helpusage: hive-d, --define <key=value> Variable subsitution to apply to hive commands. e....转载 2018-11-06 14:34:41 · 11334 阅读 · 1 评论 -
HBase: Thrift写数据报错——socket.error: [Errno 32] Broken pip
博主用的是python来读写hbase需要安装 pip install thrift 和 pip install hbase-thrifthbase客户端创建:from thrift import Thriftfrom thrift.transport import TSocket, TTransportfrom thrift.protocol import TBinaryPro...原创 2018-10-17 11:16:12 · 1916 阅读 · 0 评论 -
Hive之数据倾斜的原因和解决方法
数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将...转载 2018-09-02 22:22:44 · 7842 阅读 · 0 评论 -
Hive SQL优化之 Count Distinct
说实话,也是从今年4月份开始,笔者接触了大量写SQL的工作,才开始慢慢理解SQL的优化。在之前,公司的大数据平台只有十几个节点,随着业务快速发展,每天都会产生上百万条的数据,所以每天使用Hive写SQL发现执行时间都在变慢,但是以结果为目的的工作,在不追求高效的情况下,没人有去深入思考如何改变这种状态,每次感觉慢的实在受不了才去申请加节点,因为Hive是构建在Hadoop分布式集群上的,是一种分布...原创 2018-06-22 16:16:54 · 5049 阅读 · 0 评论 -
mysql中ifnull和hive中if函数的转换
先说说,在mysql中,ifnull函数的用法,其表达式如下:IFNULL(expr1,expr2)如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sql查询过程中,有可能出现为null,这个时候,我们就可以用ifnul...原创 2018-06-21 14:51:34 · 9615 阅读 · 0 评论 -
Hive中的一种假NULL
Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。例如如下这个查询:hive> desc ljn004;OKa stringTimetaken: 0.237 seconds hive> select a fromljn004;OKNULLTimetaken: 46.232 seconds 看上去好像ljn004的a字段保存了一个 NULL,但是换一...原创 2018-04-20 17:20:05 · 1391 阅读 · 0 评论 -
Hive中Order by和Sort by的区别是什么?
Hive基于Hadoop的mapreduce来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在Hadoop环境下很难对数据进行全局排序,如果在Hadoop上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存...原创 2018-04-03 15:19:22 · 21281 阅读 · 0 评论 -
Hbase中的列式表映射到hive的外表
在做数据ETL中,可能原始数据在列式存储Hbase中,这个时候,如果我们想清洗数据,可以考虑把Hbase表映射为Hive的外表,然后使用Hive的HQL来清除处理数据,具体过程参考下面例子:步骤1,创建Hbase表 2,映射Hive表步骤一说明:cf 列簇名,只put了少量测试列 create ‘cofeed_info’,{NAME => ‘cf’, REPLICATION_SCOPE =&...原创 2018-04-03 14:30:48 · 4742 阅读 · 1 评论 -
Hbase shell初级入门应用(一)
1. Connect to HBase.Connect to your running instance of HBase using the hbase shell command, located in the bin/ directory of your HBase install. In this example, some usage and version information t...原创 2018-04-03 13:52:37 · 458 阅读 · 0 评论 -
hdfs统计某个目录下的文件数
hadoop fs -count 统计hdfs对应路径下的目录个数,文件个数,文件总计大小显示为目录个数,文件个数,文件总计大小,输入路径例如:hadoop fs -count /data/dltb3yi/ 1 24000 253953854502 /data/dltb3yi/ 获得24000个文件原创 2017-09-16 14:16:00 · 40682 阅读 · 4 评论 -
Couldn't find leader offsets for Set([smt,0], [smt,1], [smt,2])
Couldn‘t find leader offsets for Set ([luwc_test,0],[luwc_test,1]) 异常问题。解决方案:要在kafka集群的hosts要配到spark的Driver的hosts里面去,用zk管kafka的话,是可以获取到Partition信息的,但是解析地址会失败,把hosts配成一致就可以了,直接用domain是不行的。原创 2017-08-28 11:22:42 · 6203 阅读 · 0 评论 -
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
安装Hadoop是出现The authenticity of host ‘0.0.0.0 (0.0.0.0)’ can’t be established.(错误),代码如下:root@master:/usr/local/hadoop/hadoop-2.6.0# sbin/start-dfs.shStarting namenodes on [localhost]localho原创 2017-08-03 13:57:16 · 6861 阅读 · 0 评论 -
hive lateral view 与 explode详解
Hive 中的复合数据结构简介以及一些函数的用法说明hive lateral view 与 explode详解原创 2018-11-20 20:41:38 · 3181 阅读 · 0 评论