大数据
路边草随风
这个作者很懒,什么都没留下…
展开
-
低版本impala多次去重UDAF
使用低版本的impala在进行去重统计count(distinct 字段)操作的时候会遇到很大的限制,就是一条sql只能对一个字段进行去重统计,多于一个子弹原创 2021-06-05 20:41:36 · 620 阅读 · 2 评论 -
spark自定义多层路径输出问题
一般来说,spark输出到HDFS的代码如下:saveAsHadoopFile(outputPath,NullWritable.class, String.class,ManyFileFormat.class);输出文件到目录outputPath下,只有一层,RDD的分区数多少输出文件数量也就多少,输出前也可以按照需要控制一下分区数(repartition(xx))进而控制输出文件数...原创 2019-01-22 20:41:34 · 406 阅读 · 0 评论 -
spark 1.6.3 hadoop2.x版本下读取海量压缩文件跳过无法解压文件的问题
在spark业务处理过程中,读取HDFS的数据一般使用textFile(inputPath),inputPath目录下可以使各种格式的文本,也可以是gz格式的压缩文件。使用textFile读取HDFS上inputPath目录下得文件时,如果是gz格式,spark默认解压读取。在大数据处理中,一般textFile读取目录下的文件数比较多,几万到几十万都很平常。假如该目录下有几万到几十万个gz...原创 2019-01-22 23:57:35 · 486 阅读 · 0 评论 -
用java实现主成分分析(PCA)降维
在机器学习和数据挖掘中,我们经常需要对数据的大量特征进行降维处理,减少训练的运算量和运算时间,而主成分分析(PCA)就是用来进行降维操作的算法。主成分分析(PCA)的描述如下:PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的...原创 2019-03-08 11:01:18 · 5573 阅读 · 9 评论