从Spark 2.0至Spark 2.4版本,目前支持数据源有4种,其中Kafka 数据源使用作为广泛,其他数据源主要用于开发测试程序。
文档:structured-streaming-programming-guide.html#input-sources
1. DataStreamReader 接口
在Structured Streaming中使用SparkSession#readStream读取流式数据,返回DataStreamReader对象,指定读取数据源相关信息,声明如下:
查看DataStreamReader中方法可以发现与DataFrameReader中基本一致,编码上更加方