spark中读取json_优化大规模Spark结构化流。

Spark结构化的流式生产就绪版本在spark 2.2.0中发布。 我们的团队很高兴对其进行大规模测试,我们将最大的工作之一更新为流传输,并推动生产每小时处理约6–8 TB的数据。 我们面临一些挑战,详细研究了设计并找到了优化它的方法。我将在本文中讨论一些低调的成果,重点关注如何加快微批处理以及如何加快结构化流作业输出的读取速度。Spark中的状态机制如果您不知道spark如何在结构化流作业中保存...
摘要由CSDN通过智能技术生成

Spark结构化的流式生产就绪版本在spark 2.2.0中发布。 我们的团队很高兴对其进行大规模测试,我们将最大的工作之一更新为流传输,并推动生产每小时处理约6–8 TB的数据。 我们面临一些挑战,详细研究了设计并找到了优化它的方法。

我将在本文中讨论一些低调的成果,重点关注如何加快微批处理以及如何加快结构化流作业输出的读取速度。

Spark中的状态机制

如果您不知道spark如何在结构化流作业中保存状态,请参考我的另一篇文章。

数据传送保证

e00e38b161d924fec1435a2b040995e6.png

显式元数据读取器

Spark流作业在流作业输出目录内的目录中创建_spark_metadata。 该目录包含有关流作业的所有输出批次的提交信息,并且每个第9个文件都是紧凑文件,其中包含自开始日期以来作业生成的所有文件的信息。

情境

我们已经解决了压缩文件大小的问题,并将压缩文件缩减为3 GB,但是,所有下游作业在读取流作业的输入时都花了很长时间,下游作业的吞吐量为 影响。

问题

我们查看了Spark驱动程序日志,发现该驱动程序花了很长时间才能从_spark_metadata目录中读取输入文件列表。 经过进一

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值