flink和spark使用Scala编程的代码的对比

最新推荐文章于 2024-08-07 20:31:19 发布

Lu_Xiao_Yue

最新推荐文章于 2024-08-07 20:31:19 发布

阅读量2.2k

点赞数 1

文章标签： flink spark

本文链接：https://blog.csdn.net/lu_xiao_yue/article/details/86363025

版权

本文对比了Flink与Spark在实时处理上的特性，Flink以其高实时性和丰富的算子脱颖而出，而Spark Streaming虽然也有高吞吐量，但存在延迟问题。在实现Scala编程的WordCount示例中，Flink批处理视为大流，Spark实时处理通过小批次处理，具有一定的延迟。

摘要由CSDN通过智能技术生成

Flink()：
实时性高，吞吐量高，离线+实时
算子较为丰富

Spark Streaming()：
有延迟（毫秒级别），吞吐量高，离线+实时
算子丰富，可以做机器学习，图计算（生态圈）

flink的批处理实际上流处理，只是把一个批处理当作是一个大的流，而spark的实时实际上时批处理，是极小的批次，比如说把1秒的一个批次进行一次处理，可以看作是流处理，但是会有延迟
Spark做实时计算，原来是一次性提交一个大的RDD，想要做实时计算，需要把不断的读取数据，形成多个小的RDD，每隔一段时间就会产生一个小的RDD，然后将小的RDD提交到集群

下面是在使用Scala对flink和spark进行编程时的一个对比

flink实时的wordcount:


import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.windowing.time.Time


/**
  * @Author: zxl
  * @Date: 2019/1/12 10:16
  * @Version 1.0
  * 通过实时收集 某个端口的数据， 然后进行wordcount
  */
object FlinkDemo01 {
   

  def main(args: Array[String]): Unit = {
   
  // flink 的一个工具类，可以获取参数
    val tool = ParameterTool.fromArgs(args)
// 获取hostname,如果没有就取默认值
    val hostname = tool.get("hostname","192.168.136.150")
    val port = tool.getInt("port",9999)
    // env 相当于spark中的StreamContext上下文
    val env = StreamExecutionEnvironment