自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

慎在于畏小,智在于治大

DotNet转型过来的大数据程序员,初写博客,还请多包涵

  • 博客(3)
  • 收藏
  • 关注

原创 Spark系列:Spark实战系列目录索引

Spark系列一:Spark系列目录索引背景面向的读者系列目录索引[Spark基础1:Spark2基本介绍](https://www.baidu.com/)[Spark基础2:Spark基本概念](https://www.baidu.com/)[Spark实战1:parquet文件的动态生成](https://www.baidu.com/)[Spark实战2:实现impala的分桶查询](http...

2019-05-07 10:09:28 412

原创 Spark实战2:实现impala的分桶查询

Spark实战2:实现impala的分桶查询问题来了问题场景需求分析分析结果解决 之前的文章中博主讲过对parquet文件进行了按照时间(年月日)的分区,是为了减少每次日常离线任务,所需要加载的数据量。这样按照year=2019/month=01/day=01的分区,可以使spark作业每天准确的加载前一天的数据进行计算。但是,还有一个问题在这样的分区下无法解决。那么,问题来了。 问题来了 虽然按...

2019-05-07 10:08:29 2001

原创 Gzip,BZip2,Lzo,Snappy总结

Gzip,BZip2,Lzo,Snappy总结说明优点不同意见和补充 说明 gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,我阅读“剑仙ex”的: Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景很受启发,但这位仁兄没有做成表格进行对比,本文将会对这4种压缩格式优缺点,使用场景做一个表格,方便各位阅看. 优点 ...

2019-02-25 12:46:43 1529

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除