自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark写入hdfs文件小文件解决办法

我们在使用spark写入hdfs文件时,会经常由于partition的数目问题,导致最后保存在hdfs中时产生了很多小文件,之前也用过repartition的方法,但是会出现虽然会大量减少生成文件的数目,但是会使得最后保存文件这一步的效率很低,主要也是当repartition数目很小时,task任务数目也减少了,每个task执行起来的时间变长了。我常识在spark写入hdfs文件后,再合并这些小...

2019-01-26 11:18:21 6732

原创 通过spark update 数据到arangodb

在使用spark写入arangoDB的包时,发现了一个问题,就是在写入数据到arangoDB时只能新增数据,当需要update数据时,直接使用包中的方法就不太方便。所以我尝试查看源码,新定义了一个方法,能够使spark在写入数据到arangoDB时能够update已经存在的数据。使用的spark写入arangoDB的pom为:<dependency> <groupId...

2019-01-25 16:55:50 927

原创 字符串集合强去重

我们有时候在处理字符串集合去重时,会遇到不仅仅要去除完全重复的字符串,还会遇到需要去重被包含的字符串。比如Set(“abcdefg”,“abcd”,“cdefg”,“hijklmn”,“hi”),这些字符串没有重复的,但是强去重,就需要去掉(“abcd”,“cdefg”,“hi”)。我采用了一个简单的方法,在处理字符串集合不是很大时可以使用,就是把这些字符串集合组合成一个长字符串,然后再计算这...

2019-01-25 17:03:42 495

原创 spark1.6写入elasticserach5.4.3遇到的坑

由于公司运维部署的spark版本是1.6.3,而使用的elasticserach版本为5.4.3,在常识通过spark读取hive中数据写入到elastic search时,没有找到对应的包,一直都是报错。后来无意中google发现,spark和elastic search的包在maven中有三种一:适用于spark1.3 1.6 插入到elasticserach 5.0.0-alpha4以前的...

2019-01-23 16:31:21 461

secoclient-macosx-7.0.5.1.tar.gz

SecoClient 7.0.3及以后版本支持的MAC操作系统版本包括: OS X 10.12.x OS X 10.13.x OS X 10.14.x OS X 10.15.x

2021-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除