2017年09月_lvhuiyin

09月 08月 07月 05月

转载欢迎使用CSDN-markdown编辑器

map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜。 1.万能膏药：hive.groupby.skewindata=true

2017-09-08 14:32:56 380

转载 hive中的NULL(hive空值处理)

HIVE表中默认将NULL存为\N，可查看表的源文件（hadoop fs -cat或者hadoop fs -text），文件中存储大量\N，这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时，解析也要注意。另外，hive表的源文件中，默认列分隔符为\001(SOH)，行分隔符为\n（目前只支持\n，别的不能用，所以定义时不需要显示声明）。元素间分隔符\002，map中ke

2017-09-08 14:26:49 23472

转载 hive mapjoin使用

今天遇到一个Hive的问题，如下hive sql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。为了解决

2017-09-08 14:22:02 624

原创 Hadoop权威指南--Hive笔记

关于Hive Hive是一个构建在Hadoop上的数据仓库框架 SQL语句不适合开发复杂的机器学习算法 Hive把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业 Hive把数据组织为表，通过这种方式为存储在hdfs的数据赋予结构，元数据（如表模式）存储在metastore数据库中 Hive能和哪些版本的Hadoop共同工作： Hive支持

2017-09-08 14:19:36 1039

原创 Hive自定义函数UDF

自定义函数自定义函数包括三种 UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/ min UDTF(User-Defined Table-Generating Functions) 一进多出，如 la

2017-09-08 14:15:48 303