flink DataStream 通过Data sinks 将它们转发到文件、套接字、外部系统或打印它们。
Flink 自带了多种内置的输出格式,这些格式相关的实现封装在 DataStreams 的算子里:
writeAsText()
/TextOutputFormat
- 将元素按行写成字符串。通过调用每个元素的 toString() 方法获得字符串-
writeAsCsv(...)
/CsvOutputFormat
- 将元组写成逗号分隔值文件。行和字段的分隔符是可配置的。每个字段的值来自对象的 toString() 方法。 -
print()
/printToErr()
- 在标准输出/标准错误流上打印每个元素的 toString() 值。 可选地,可以提供一个前缀(msg)附加到输出。这有助于区分不同的 print 调用。如果并行度大于1,输出结果将附带输出任务标识符的前缀。 -
writeUsingOutputFormat()
/FileOutputFormat
- 自定义文件输出的方法和基类。支持自定义 object 到 byte 的转换。 -
writeToSocket
- 根据SerializationSchema
将元素写入套接字。 -
addSink
- 调用自定义 sink function。Flink 捆绑了连接到其他系统(例如 Apache Kafka)的连接器,这些连接器被实现为 sink functions。
注意,DataStream 的 write*()
方法主要用于调试目的。它们不参与 Flink 的 checkpointing
为了将流可靠地、精准一次地传输到文件系统中,请使用 FileSink
。此外,通过 .addSink(...)
方法调用的自定义实现也可以参与 Flink 的 checkpointing,以实现精准一次的语义。