- 博客(4)
- 资源 (19)
- 收藏
- 关注
原创 hive函数 -- split 字符串分割函数
hive字符串分割函数split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s)返回值为一个数组例1:split('a,b,c,d',',')得到的结果:["a","b","c","d"] 当然,我们也可
2014-01-23 19:03:16 264955 2
原创 hive的几种文件格式
hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以的形式序列化到文件中存储方式:行存储可分割 压缩一般选择block压缩优势是文件和hadoop api中的mapfile是相互兼容的。3.rcfile
2014-01-20 14:31:51 19734
原创 hive 小文件的合并 hive.merge.mapredfiles
起因:最近仓库里面新建了一张分区表,数据量大约是12亿行,分区比较多,从2008年7月开始 一天一个分区。配置了一个任务 对这个表进行group by 的时候 发现启动了2800多个maps .执行的时间也高大10分钟。然后我在hdfs文件里面看到 这个表的每个分区里面都有20多个小文件,每个文件都不大 300KB--1MB 之前的hive的参数:hive.merg
2014-01-03 16:15:04 13436
原创 hive函数 -- asin
反正弦函数asin(x) - returns the arc sine of x if -1asin(x)定义域 [-1,1] x在其它区间的话 得到的值是null值域 [-pi/2,pi/2]实例: asin(-1) = -pi/2asin(1)=pi/2
2014-01-02 18:52:40 1704
深入理解MySQL核心技术(中文PDF)
2013-03-22
zookeeper 3.4.3安装包
2012-11-30
X-Win32 2012 安装文件
2012-11-06
redis安装包
2012-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人