大数据之DStream 输出完整使用 (第十五章)

最新推荐文章于 2024-02-01 09:50:33 发布

小坏讲微服务

最新推荐文章于 2024-02-01 09:50:33 发布

阅读量268

点赞数

分类专栏：小坏讲大数据Spark第十阶段文章标签：大数据

本文链接：https://blog.csdn.net/qq_42082701/article/details/125969119

版权

小坏讲大数据Spark第十阶段专栏收录该内容

17 篇文章 3 订阅

订阅专栏

大数据之DStream 输出

一、DStream 输出

一、DStream 输出

输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似，如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作，那么这些 DStream 就都不会被求值。如果StreamingContext 中没有设定输出操作，整个 context 就都不会启动。

输出操作如下：

➢ print()：在运行流程序的驱动结点上打印 DStream 中每一批次数据的最开始 10 个元素。这用于开发和调试。在 Python API 中，同样的操作叫 print()。

➢ saveAsTextFiles(prefix, [suffix])：以 text 文件形式存储这个 DStream 的内容。每一批次的存储文件名基于参数中的 prefix 和 suffix。”prefix-Time_IN_MS[.suffix]”。

➢ saveAsObjectFiles(prefix, [suffix])：以 Java 对象序列化的方式将 Stream 中的数据保存为SequenceFiles . 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]". Python中目前不可用。

➢ saveAsHadoopFiles(prefix, [suffix])：将 Stream 中的数据保存为 Hadoop files. 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]"。Python API 中目前不可用。

➢ foreachRDD(func)：这是最通用的输出操作，即将函数 func 用于产生于 stream 的每一个RDD。其中参数传入的函数 func 应该实现将每一个 RDD 中数据推送到外部系统，如将RDD 存入文件或者通过网络将其写入数据库。

通用的输出操作 foreachRDD()，它用来对 DStream 中的 RDD 运行任意计算。这和 transform() 有些类似，都可以让我们访问任意 RDD。在 foreachRDD()中，可以重用我们在 Spark 中实现的所有行动操作。比如，常见的用例之一是把数据写到诸如 MySQL 的外部数据库中。

注意：

连接不能写在 driver 层面（序列化）
如果写在 foreach 则每个 RDD 中的每一条数据都创建，得不偿失；
增加 foreachPartition，在分区创建（获取）。

小坏讲微服务

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之DStream 输出完整使用 (第十五章)

与RDD中的惰性求值类似，如果一个DStream及其派生出的DStream都没有被执行输出操作，那么这些DStream就都不会被求值。➢saveAsObjectFiles(prefix,[suffix])以Java对象序列化的方式将Stream中的数据保存为SequenceFiles.每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]".Python中目前不可用。每一批次的存储文件名基于参数中的prefix和suffix。...
复制链接

扫一扫