jiangmeng0606-CSDN博客

原创 spark写入hdfs文件小文件解决办法

我们在使用spark写入hdfs文件时，会经常由于partition的数目问题，导致最后保存在hdfs中时产生了很多小文件，之前也用过repartition的方法，但是会出现虽然会大量减少生成文件的数目，但是会使得最后保存文件这一步的效率很低，主要也是当repartition数目很小时，task任务数目也减少了，每个task执行起来的时间变长了。我常识在spark写入hdfs文件后，再合并这些小...

2019-01-26 11:18:21 6733

原创通过spark update 数据到arangodb

在使用spark写入arangoDB的包时，发现了一个问题，就是在写入数据到arangoDB时只能新增数据，当需要update数据时，直接使用包中的方法就不太方便。所以我尝试查看源码，新定义了一个方法，能够使spark在写入数据到arangoDB时能够update已经存在的数据。使用的spark写入arangoDB的pom为：&amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId...

2019-01-25 16:55:50 927

原创字符串集合强去重

我们有时候在处理字符串集合去重时，会遇到不仅仅要去除完全重复的字符串，还会遇到需要去重被包含的字符串。比如Set(“abcdefg”,“abcd”,“cdefg”,“hijklmn”,“hi”)，这些字符串没有重复的，但是强去重，就需要去掉(“abcd”,“cdefg”,“hi”)。我采用了一个简单的方法，在处理字符串集合不是很大时可以使用，就是把这些字符串集合组合成一个长字符串，然后再计算这...

2019-01-25 17:03:42 495

原创 spark1.6写入elasticserach5.4.3遇到的坑

由于公司运维部署的spark版本是1.6.3，而使用的elasticserach版本为5.4.3,在常识通过spark读取hive中数据写入到elastic search时，没有找到对应的包，一直都是报错。后来无意中google发现，spark和elastic search的包在maven中有三种一：适用于spark1.3 1.6 插入到elasticserach 5.0.0-alpha4以前的...

2019-01-23 16:31:21 461

secoclient-macosx-7.0.5.1.tar.gz

SecoClient 7.0.3及以后版本支持的MAC操作系统版本包括： OS X 10.12.x OS X 10.13.x OS X 10.14.x OS X 10.15.x

2021-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人