- 博客(4)
- 收藏
- 关注
原创 hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)
数据做压缩和解压缩总会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销最好对那些I/O密集型的作业使用数据压缩hive表的存储格式为 TEXTFILE SEQUENCEFILE(三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩) RCFILE 自定义格式
2016-01-20 19:49:44 28974 1
原创 shell命令执行hive脚本(hive交互,hive的shell编程)
Hive执行方式Hive的hql命令执行方式有三种:1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3、作为独立文件,通过shell调用 hive –f或hive –i执行执行方式1键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use datab
2016-01-19 15:15:42 58164 4
原创 hive分组排序 取top N
pig可以轻松获取TOP n。书上有例子hive中比较麻烦,没有直接实现的函数,可以写udf实现。还有个比较简单的实现方法:用row_number,生成排名序列号。然后外部分组后按这个序列号多虑,样例代码如下select a.*from( select 品牌,渠道,档期,count/sum/其它() as num row_number() over (partition by 品
2016-01-15 18:43:15 23077
原创 python辅助开发模块(非官方)如pil,mysqldb,openpyxl,xlrd,xlwd
官方文档 只是支持win32,不支持win64所以很麻烦民间高人,集中做了一堆辅助库,下载后,用python安装目录下的scripts中,pip和easy_install就可以安装了python非官方辅助开发模块库:http://www.lfd.uci.edu/~gohlke/pythonlibs/#bitarray如PIL官网http://www.pyth
2016-01-08 11:37:35 1242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人