我因为做毕设需要用到大数据的一些东西,我用sqoop增量读取mysql数据库的数据,然后写入hdfs文件系统,于是想用Spark Sreaming监控HDFS文件目录,可以实时读取HDFS文件目录新增加的数据,通过Spark处理读取的数据。
所以前期就调试Spark Streaming监控hdfs文件目录,可是出现了一个奇怪的问题。我在另外一台电脑上可以跑通,但是在笔记本上就跑不通。而且没有任何报错。我在一些群里问过几次,后没有人给我解决,后百度,发现竟然搜不到一个可以解决的答案。我发现也有人问,但是没人解答上来。
所以在此提供我的解决办法,以此记录,为后面遇到此问题的人提供参考。
代码很简单,如下
package bigdata.project.spark
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
object sparkstreaming {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local[2]").setAppName("sparkstreaming")
val ssc = new StreamingContext(sparkConf,Seconds(5))
val lines = ssc.textFileStream("hdfs://hadoop:9000/ershoufang")
println("-----------------------------------------")
var cleandata = lines.flatM