- 博客(3)
- 收藏
- 关注
原创 Spark系列:Spark实战系列目录索引
Spark系列一:Spark系列目录索引背景面向的读者系列目录索引[Spark基础1:Spark2基本介绍](https://www.baidu.com/)[Spark基础2:Spark基本概念](https://www.baidu.com/)[Spark实战1:parquet文件的动态生成](https://www.baidu.com/)[Spark实战2:实现impala的分桶查询](http...
2019-05-07 10:09:28 412
原创 Spark实战2:实现impala的分桶查询
Spark实战2:实现impala的分桶查询问题来了问题场景需求分析分析结果解决 之前的文章中博主讲过对parquet文件进行了按照时间(年月日)的分区,是为了减少每次日常离线任务,所需要加载的数据量。这样按照year=2019/month=01/day=01的分区,可以使spark作业每天准确的加载前一天的数据进行计算。但是,还有一个问题在这样的分区下无法解决。那么,问题来了。 问题来了 虽然按...
2019-05-07 10:08:29 2001
原创 Gzip,BZip2,Lzo,Snappy总结
Gzip,BZip2,Lzo,Snappy总结说明优点不同意见和补充 说明 gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,我阅读“剑仙ex”的: Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景很受启发,但这位仁兄没有做成表格进行对比,本文将会对这4种压缩格式优缺点,使用场景做一个表格,方便各位阅看. 优点 ...
2019-02-25 12:46:43 1529
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人