自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)

数据做压缩和解压缩总会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销最好对那些I/O密集型的作业使用数据压缩hive表的存储格式为    TEXTFILE    SEQUENCEFILE(三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩)    RCFILE    自定义格式

2016-01-20 19:49:44 28974 1

原创 shell命令执行hive脚本(hive交互,hive的shell编程)

Hive执行方式Hive的hql命令执行方式有三种:1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3、作为独立文件,通过shell调用 hive –f或hive –i执行执行方式1键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use datab

2016-01-19 15:15:42 58164 4

原创 hive分组排序 取top N

pig可以轻松获取TOP n。书上有例子hive中比较麻烦,没有直接实现的函数,可以写udf实现。还有个比较简单的实现方法:用row_number,生成排名序列号。然后外部分组后按这个序列号多虑,样例代码如下select a.*from( select 品牌,渠道,档期,count/sum/其它() as num row_number() over (partition by 品

2016-01-15 18:43:15 23077

原创 python辅助开发模块(非官方)如pil,mysqldb,openpyxl,xlrd,xlwd

官方文档 只是支持win32,不支持win64所以很麻烦民间高人,集中做了一堆辅助库,下载后,用python安装目录下的scripts中,pip和easy_install就可以安装了python非官方辅助开发模块库:http://www.lfd.uci.edu/~gohlke/pythonlibs/#bitarray如PIL官网http://www.pyth

2016-01-08 11:37:35 1242

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除