《基于 Apache Flink 的流处理》阅读笔记(三)

《基于 Apache Flink 的流处理》阅读笔记(二)

Apache Flink架构

  • 运行时架构:四个JVM进程运行在不同的物理节点上

    • JobManager:

      • 主进程控制单个应用程序执行,每个应用程序都有一个JobManager进行控制
      • 包括:JobGraph(Dataflow图,执行时转化为物理Dataflow图)+ 类库资源的 JAR 包
      • 根据物理 Dataflow 图(ExecutionGraph)向 ResourceManager 申请资源(就是槽 slots),然后分发运行
      • 运行中协调操作,协调 checkpoint,协调恢复,至少要有一个 JobManager
    • TaskManager

      • 工作进程;包含多个线程——slots 作为资源进行分配

      • slots 向 ResourceManager 注册,JobManager申请就能够分配

      • slots 对应着运行并行度

        设置taskslot的时候推荐的就是设置为CPU的核数(虽然隔离的是内存,共享的是CPU,这样安排是因为避免各个slot之间共享CPU导致的CPU繁忙)
        并行度parallelsim和slots的关系是动态和静态的关系:也就是说,例如三个taskmanager(一个taskm

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Flink是一种处理框架,用于处理连续的实时数据。它使用分布式并行计算来实时处理数据,并且具有高可靠性和高性能的特点。 PDF(Portable Document Format)是一种常见的电子文档格式,广泛使用于文档交换和打印输出。 基于Apache Flink处理可以用于处理PDF文件。在这个场景中,PDF文件可以作为输入数据源,通过Flink处理技术进行实时处理和分析。具体来说,可以使用Flink的文件源(file source)将PDF文件读取为,然后应用一系列的处理操作,如数据转换、过滤、聚合和计算等。 在PDF处理的实际应用中,可以根据具体需求定义一些处理操作,如文档内容提取、关键词搜索、文本分类、模式识别等。通过Flink的数据并行处理能力,可以快速地处理大量的PDF文件,并及时地获取处理结果。 另外,基于Apache Flink处理还可以与其他组件和工具进行集成,如Elasticsearch、Kafka等,以实现更丰富的功能和应用。例如,可以将处理后的PDF数据存储到Elasticsearch中,以支持更高级的搜索和查询功能;也可以将处理结果发送到Kafka中,以供其他应用或系统使用。 总之,基于Apache Flink处理可以很好地支持PDF文件的实时处理和分析,通过其高性能和可扩展性,能够满足大规模PDF数据处理的需求,并为实时决策和业务提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值