spark-streaming在读取hdfs或者本地目录下的静态文件时需要注意的几点:
一、读取路径为读取文件所在的上一级文件夹,和所读取文件统计目录下的文件夹中的内容不会被读取(path路径只能写到文件夹,否则报空指针错误,但程序不会停止)
二、读取文件数据时,把要处理的数据文件put或者mv到指定的文件加下,不然streaming没有数据输出
三、spark-streaming对put或者mv进来文件数据只读取一次,后续向已有的文件中追加的数据不进行读取
四、spark-streaming只对文件夹中新添加的文件进行数据读取,已有的文件不读取