- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 spark写入hdfs文件小文件解决办法
我们在使用spark写入hdfs文件时,会经常由于partition的数目问题,导致最后保存在hdfs中时产生了很多小文件,之前也用过repartition的方法,但是会出现虽然会大量减少生成文件的数目,但是会使得最后保存文件这一步的效率很低,主要也是当repartition数目很小时,task任务数目也减少了,每个task执行起来的时间变长了。我常识在spark写入hdfs文件后,再合并这些小...
2019-01-26 11:18:21 6733
原创 通过spark update 数据到arangodb
在使用spark写入arangoDB的包时,发现了一个问题,就是在写入数据到arangoDB时只能新增数据,当需要update数据时,直接使用包中的方法就不太方便。所以我尝试查看源码,新定义了一个方法,能够使spark在写入数据到arangoDB时能够update已经存在的数据。使用的spark写入arangoDB的pom为:<dependency> <groupId...
2019-01-25 16:55:50 927
原创 字符串集合强去重
我们有时候在处理字符串集合去重时,会遇到不仅仅要去除完全重复的字符串,还会遇到需要去重被包含的字符串。比如Set(“abcdefg”,“abcd”,“cdefg”,“hijklmn”,“hi”),这些字符串没有重复的,但是强去重,就需要去掉(“abcd”,“cdefg”,“hi”)。我采用了一个简单的方法,在处理字符串集合不是很大时可以使用,就是把这些字符串集合组合成一个长字符串,然后再计算这...
2019-01-25 17:03:42 495
原创 spark1.6写入elasticserach5.4.3遇到的坑
由于公司运维部署的spark版本是1.6.3,而使用的elasticserach版本为5.4.3,在常识通过spark读取hive中数据写入到elastic search时,没有找到对应的包,一直都是报错。后来无意中google发现,spark和elastic search的包在maven中有三种一:适用于spark1.3 1.6 插入到elasticserach 5.0.0-alpha4以前的...
2019-01-23 16:31:21 461
secoclient-macosx-7.0.5.1.tar.gz
2021-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人