1 首先是官网:
http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht
2.注意官方文档中的着重表示的地方例如(黑体加重,斜体等)
我们都知道spark streaming 是基于spark core API
那Structed Streaming基于的是什么?
没错就是Spark SQL。 所以DataFrame/DataSet API 包括hive的一些functions 不要太好用哦!!!
下面这句话:“you can express your streaming computaion the same way
you would express a batch computation on a static data”
就保证了我们在实际开发时的成本比较低,当我们在开发一个的应用中包含流计算和批计算。
3.特点:
可扩展性,容错性(这都是必备的好吗?)
精确的一次语义
低延迟
4.关键点:
Continuously processing
databricks的blog上这篇文章写的也很好