- 博客(5)
- 资源 (6)
- 收藏
- 关注
转载 欢迎使用CSDN-markdown编辑器
map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。 1.万能膏药:hive.groupby.skewindata=true
2017-09-08 14:32:56 380
转载 hive中的NULL(hive空值处理)
HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N, 这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时,解析也要注意。另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明)。元素间分隔符\002,map中ke
2017-09-08 14:26:49 23472
转载 hive mapjoin使用
今天遇到一个Hive的问题,如下hive sql: select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。 为了解决
2017-09-08 14:22:02 624
原创 Hadoop权威指南--Hive笔记
关于Hive Hive是一个构建在Hadoop上的数据仓库框架 SQL语句不适合开发复杂的机器学习算法 Hive把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业 Hive把数据组织为表,通过这种方式为存储在hdfs的数据赋予结构,元数据(如表模式)存储在metastore数据库中 Hive能和哪些版本的Hadoop共同工作: Hive支持
2017-09-08 14:19:36 1039
原创 Hive自定义函数UDF
自定义函数 自定义函数包括三种 UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/ min UDTF(User-Defined Table-Generating Functions) 一进多出,如 la
2017-09-08 14:15:48 303
JMS与Spring之二(用message listener container异步收发消息)
2014-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人