大数据
voidfaceless
这个作者很懒,什么都没留下…
展开
-
【Hadoop】hadoop删除文件文件夹
删除文件hdfs fs –rm [文件地址]例如:hdfs dfs –rm /user/spark/applicationHistory/local-1564737954168删除文件后文件会存放至 /user/hdfs/.Trash中,hdfs的回收站,可设置回收站清理时间使用 hdfs dfs -rm -skipTrash [文件地址] 跳过回收站删除文件删除文件夹hdfs...原创 2020-02-18 11:09:40 · 7432 阅读 · 0 评论 -
【Spark】IDEA sbt编译出错unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not found
IDEA sbt编译出错unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not foundsbt编译的时候报错:unresolved dependency: com.eed3si9n#sbt-assembly;0.13.0: not found我这里的原因是sbt的版本对不上,找到project文件夹下的build.prop...原创 2020-01-02 10:00:27 · 1097 阅读 · 0 评论 -
spark-streaming越来越慢的bug
spark-streaming越来越慢的bug解决方案:step1:kafka参数配置为不自动提交偏移量:"enable.auto.commit" -> (false: java.lang.Boolean)step2:自己写代码维护偏移量打完收工。后续代码再更新...原创 2019-10-29 10:14:46 · 1182 阅读 · 0 评论 -
解决redis.clients.jedis.exceptions.JedisDataException: ERR max number of clients reached
Caused by: redis.clients.jedis.exceptions.JedisDataException: ERR max number of clients reachedspark-streaming报错:Caused by: redis.clients.jedis.exceptions.JedisDataException: ERR max number of client...原创 2019-10-22 17:10:29 · 6004 阅读 · 0 评论 -
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题
Spark未知问题—updateStateByKey的checkpoint引发的一系列问题楼主在应用spark-streaming时候,用到了updateStateByKey这个算子。updateStateByKey需要事先指定一个checkpoint地址,用于存储Metadata checkpointing和Data checkpointing。但是我在执行的时候,发现checkpoint文...原创 2019-10-14 20:10:54 · 446 阅读 · 0 评论 -
spark—map与flatmap的区别之用flatmap代替map.filter/filter.map组合
spark—用flatmap代替map.filter/filter.map组合spark RDD与DStream API支持很多好用的算子,最常用的莫过于map和filter了,顾名思义可知:map: 返回一个新的分布式数据集,其中每个元素都是由源RDD中一个元素经func转换得到的;filter: 返回一个新的数据集,其中包含的元素来自源RDD中元素经func过滤后(func返回true时...原创 2019-10-12 10:37:19 · 1110 阅读 · 0 评论