- 博客(2)
- 收藏
- 关注
原创 SparkStreaming知识点注意事项
1. SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的准实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件...
2019-04-23 20:03:15 419
转载 SparkSQL
** 1.SparkSQL* 1. SparkSQL介绍 Spark SQL产生的根本原因时其完全脱离了Hive的限制 SparkSQL支持查询原生的RDD。RDD时Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础 能够在Scala中写SQL。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用 2. Sprak o...
2019-04-23 19:43:45 136
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人