hadoop
路边草随风
这个作者很懒,什么都没留下…
展开
-
低版本impala多次去重UDAF
使用低版本的impala在进行去重统计count(distinct 字段)操作的时候会遇到很大的限制,就是一条sql只能对一个字段进行去重统计,多于一个子弹原创 2021-06-05 20:41:36 · 620 阅读 · 2 评论 -
spark 1.6.3 hadoop2.x版本下读取海量压缩文件跳过无法解压文件的问题
在spark业务处理过程中,读取HDFS的数据一般使用textFile(inputPath),inputPath目录下可以使各种格式的文本,也可以是gz格式的压缩文件。使用textFile读取HDFS上inputPath目录下得文件时,如果是gz格式,spark默认解压读取。在大数据处理中,一般textFile读取目录下的文件数比较多,几万到几十万都很平常。假如该目录下有几万到几十万个gz...原创 2019-01-22 23:57:35 · 486 阅读 · 0 评论