flink如何实现单词统计

weixin_34278711

于 2024-08-28 07:32:10 发布

阅读量459

点赞数 12

分类专栏： java 文章标签： flink

本文链接：https://blog.csdn.net/weixin_34278711/article/details/141617582

版权

3 篇文章 0 订阅

订阅专栏

Apache Flink是一个用于处理无界和有界数据的分布式流处理框架，它通过DataStream API实现了对实时数据的高效处理。

在Flink中统计单词的数量通常涉及以下几个步骤：

数据读取：首先从源头获取数据，这可以是一个文件、Kafka主题、数据库或者其他数据源。
数据转换（flatMap）：使用flatMap操作将输入的每个元素分割成单词列表。例如，如果你的数据是字符串形式，你可以使用正则表达式或者split函数将其拆分成单独的单词。

Java

Stream<String> words = input流.flatMap(line -> Arrays.asList(line.split("\\W+")).stream());

Java

Stream<String> uniqueWords = words.distinct();

Java

Map<String, Long> wordCounts = uniqueWords.countByValue(); // 使用Flink的CountWindowedValues函数

结果聚合（reduce or collect）：如果你想得到最终的结果视图（如Top K单词），你可以进一步使用reduce或collect操作。如果只是打印结果，可以直接调用print或collect；如果需要持久化到外部系统（如Hive表），则需另外配置Sink。

Java

wordCounts.forEach((word, count) -> System.out.println(word + ": " + count)); // 或者 wordCounts.print();

关注

专栏目录