文章标题

原创 2017年11月15日 11:55:36

SparkStreaming,textFileStream读取HDFS文件,读取不到的问题

原因很简单,textFileStream()这个方法只能读取到新放入的文件,意思是要先启动程序,然后把文件put进去.
以下是官方的api说明
Create an input stream that monitors a Hadoop-compatible filesystem for new files and reads them as text files (using key as LongWritable, value as Text and input format as TextInputFormat). Files must be written to the monitored directory by “moving” them from another location within the same file system. File names starting with . are ignored.

public class HDFSWordCount {
public static void main(String[] args) throws InterruptedException {
    SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("WordCount");
    JavaStreamingContext javaStreamingContext = new JavaStreamingContext(conf, Durations.seconds(1));
    JavaDStream<String> lines = javaStreamingContext.textFileStream("hdfs://bigdata02.nebuinfo.com:8020/sparktest/data/wordcount");
    lines.flatMap(x-> Arrays.asList(x.split(" ")).iterator())
            .mapToPair(x->new Tuple2<String, Integer>(x,1))
            .reduceByKey((x,y)->x+y).print();
    //必须调用start方法才会开始
    javaStreamingContext.start();
    javaStreamingContext.awaitTermination();
    javaStreamingContext.close();
    }
}

网上说可以用fileStream,但是我得到的结果不正确,哪位大神知道麻烦说一下

JavaPairInputDStream<LongWritable, Text> longWritableTextJavaPairInputDStream = javaStreamingContext.fileStream("hdfs://bigdata02.nebuinfo" +
                    ".com:8020/sparktest/data/wordcount",
            LongWritable.class, Text.class, TextInputFormat.class,
            new Function<Path, Boolean>() {
                @Override
                public Boolean call(Path v1) throws Exception {
                    return true;
                }
            }, false);

    longWritableTextJavaPairInputDStream.print();

相关文章推荐

文章标题自动标注程序

  • 2015年06月25日 17:04
  • 6.93MB
  • 下载

在文章中主标题和副标题的格式问题

请问:如果 大标题居中书写。正常情况下,副标题要在大标题第三个字下开始写破折号,是吗?那如果格数不够,副标题写不开了怎么办?可以把副标题居中写吗? 还是把 大标题和副标题整体前移?不是论文,手写的,公...

文章标题上下轮番滚动.zip

  • 2012年09月04日 12:31
  • 28KB
  • 下载

PL/SQL记录和表(oracle type(数组))(最简单!文章下面标黄标题是精华,必看)

PL/SQL记录和表 1.使用%TYPE  (用于基本数据类型) 例1(用户并不知道Course_No的数据类型,只知道他是基于Student_No数据类型的,随着Student_No的类型变化而...

文章标题 nginx 实现express 高并发接口

之前用ssh写过一个后端服务接口,通过一个api向外部提供天气预报数据,但是并发量一旦大了,反应时长就会变的很长,也容易爆内存不足的问题。后来了解到node.js 处理高并发的优势,就拿java+to...

文章标题n个人围成一圈,顺序排号。从第一个人开始报数(1~3),凡报到3的人退出圈子,问最后留下来的是原来几号的那位?

第一封技术博客,从小白开始,一同成长!审题:围成一圈报数,固当第一次报到3的时候,就应该退出这个圈子,不在进行下面的报数,对计算机而言,就是跳过这个“喊出3的人” 接着从“1,2”开始。怎么跳过呢?给...

文章标题Matlab GUI学习笔记(一)function “funcname” 工作区和基本工作区

最近学习matlab的GUI编程,非图形化方式,发现使用回调函数传递句柄类型的变量是时总是提示该变量未定义: Error using matlab.ui.Figure/set Invalid or ...
  • guguizi
  • guguizi
  • 2016年03月10日 17:03
  • 1205

文章标题 : [分享]CH340/CH341,USB转串口驱动模块

内容 1 楼  qdzheng  文章标题 : [分享]CH340/CH341,USB转串口驱动模块 发表于 : 2008-02-09 23:35  ...

文章标题

SLAM学习资料整理个人能力有限,若有错误请批评指正! 转载请标明出处:http://www.cnblogs.com/wenhust/书籍: 1.必读经典 Thrun S, Burgard W,...
  • usfage
  • usfage
  • 2017年05月03日 19:53
  • 81
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:文章标题
举报原因:
原因补充:

(最多只允许输入30个字)