自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (6)
  • 收藏
  • 关注

转载 欢迎使用CSDN-markdown编辑器

map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。 1.万能膏药:hive.groupby.skewindata=true

2017-09-08 14:32:56 380

转载 hive中的NULL(hive空值处理)

HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N, 这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时,解析也要注意。另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明)。元素间分隔符\002,map中ke

2017-09-08 14:26:49 23472

转载 hive mapjoin使用

今天遇到一个Hive的问题,如下hive sql: select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)   该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。 为了解决

2017-09-08 14:22:02 624

原创 Hadoop权威指南--Hive笔记

关于Hive Hive是一个构建在Hadoop上的数据仓库框架 SQL语句不适合开发复杂的机器学习算法 Hive把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业 Hive把数据组织为表,通过这种方式为存储在hdfs的数据赋予结构,元数据(如表模式)存储在metastore数据库中 Hive能和哪些版本的Hadoop共同工作: Hive支持

2017-09-08 14:19:36 1039

原创 Hive自定义函数UDF

自定义函数 自定义函数包括三种 UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/ min UDTF(User-Defined Table-Generating Functions)  一进多出,如 la

2017-09-08 14:15:48 303

白话经典算法之七大排序

白话经典算法之七大排序

2016-06-05

activemq中文介绍

activemq中文介绍,消息中间件,activemq中文介绍,消息中间件

2014-10-25

Eclipse下使用SVN版本控制

Eclipse下使用SVN版本控制

2014-06-11

JMS与Spring之二(用message listener container异步收发消息)

JMS与Spring之二(用message listener container异步收发消息)

2014-06-11

JMS与Spring之一(用JmsTemplate同步收发消息)

JMS与Spring之一(用JmsTemplate同步收发消息)

2014-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除