spark
qq_19917081
这个作者很懒,什么都没留下…
展开
-
解决spark多输入路径中,存在个别路径文件为空时报错的方法
在spark开发过程中,当输入路径为多个时,用逗号(,)来拼接路径,但是有时候会遇到,多个输入目录有个别路径下没有文件,这时候提交任务,会直接报错,job不能运行解决问题:1、根据报错信息找到相应代码,报错信息如下 Input Pattern ***** matches 0 files代码位置:FileInputFormat类151行 Path p = arr$[i$]; FileSystem fs = p.getFileSystem(job); FileStatus[] matc.原创 2020-11-03 14:56:01 · 951 阅读 · 0 评论 -
spark streaming 实现根据文件内容自定义文件名,并实现文件内容追加
spark streaming 从kafka拉取数据,根绝消息内容,需要将不容的消息放到不同的文件夹下,大致内容为 从消息中拆分出域名,不同域名分不到不同目录,域名下按消息中的时间分年月日目录,底层目录下自定义文件个数,实现追加 由于sparkstreaming 10秒运行一次job,需要重写 OutputFormat,来实现按内容分目录,文件追加val lines = KafkaUtils.cr原创 2017-02-24 14:53:07 · 5010 阅读 · 9 评论 -
spark streaming 实现kafka的createDirectStream方式!!不坑
网上搜了很多spark streaming 用createDirectStream方式消费kafka的,信息是有很多,但是照着做都遇到了坑,最大的坑就是KafkaCluster是private的!根本就new不了,折腾了一会终于搞定了,也不复杂1. 新建一个包org.apache.spark.streaming.kafka,就是在你的project建一个这个目录的包,在这个包下面的类里,就...原创 2017-03-09 16:58:08 · 8000 阅读 · 1 评论 -
spark 笔记
初学spark的时候看到各种map mappartition foreach foreachpartition ,感觉会头晕,自己整理一下,以后记不清的时候可以来看下首先理解partition的概念,一个partition在spark中就是一个rdd的分区,凡是带有partition的方法,都是对分区进行操作,不带的就是对整个rdd操作,一个分区的数据和处理都是在一个executor中完成的,这样转载 2017-03-23 18:06:07 · 523 阅读 · 0 评论