分布式转码初步方案(hadoop+ffmpeg)

分布式转码初步方案

背景说明

现有的转码方案是一个转码worker处理整个视频的不同清晰度的转码,如果一个视频很大,那这个视频转码将非常耗时。
因此需要改进方案,要求对大多数格式的视频可以进行切片后并行转码,以此提高一个视频的转码效率。

技术预研

目前搜到的参考资料,基本都是针对某几个特定格式的分布式转码方案。
当前视频转码基本都依赖于ffmpeg, 目前存在一个问题:
暂时没有找到一个合适的方法去无缝切割多种编码格式的视频,然后分别对切割出来的分片进行转码; 这个过程部分格式正常部分异常(请原谅我是非科班出身)。
计划先用low一点的方案实现,ffmpeg可以在一个完整的视频上,指定视频区间来进行转码,暂时测试了大多数格式的效果都OK;
那就每个worker的视频源都是同一个视频文件,然后并行对不同区间的视频段进行转码,所以就有了下面这个初步方案。

架构方案



几点说明
  1. 利用ffmpeg、hadoop、RBMQ, ffmpeg作为分布式存储,ffmpeg作为转码工具,RBMQ作为任务队列, 来构建一个分布式转码服务;
  2. 关于方案中的几个问题:
    • 每个转码worker都需要操作整个视频, 中间涉及到的上传、下载开销比较大;
    • 多个过程都依赖于rbmq来完成异步转码,虽然解耦,但是会增加失败重转逻辑的复杂度;
    • 如何均衡分配worker是一个关键点,比如有些视频转码的优先级比较高,有些视频比较大可能又需要更多的worker去并行处理转码。
最后

架构需要改进,但应该可以在编码实现和测试的过程中逐步改进;如果最后解决了大多数格式视频都可以先切割成单独视频分片后,再针对分片来进行转码及合并的问题,那么就可以减少更多传输和存储开销,提升性能。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Hadoop、Hive、Spark和Zookeeper都是大数据技术栈中重要的组件。 Hadoop是一个由Apache开源的分布式文件系统和计算框架。它能够将大规模的数据分散存储在千台、万台、甚至更多的服务器上,并且实现数据的高效处理和分析。 Hive是在Hadoop之上构建的数据仓库基础设施。它提供了一个类似于SQL的查询语言,可以让用户通过简单的查询语句对存储在Hadoop集群中的数据进行操作和分析。Hive可以将结构化和半结构化的数据映射为一张表格,并提供了诸如过滤、连接、聚合等功能。 Spark是一个快速的、通用的集群计算系统。它提供了分布式数据处理的能力,采用了内存计算方式,相比于Hadoop MapReduce带来了更高的性能和更广泛的应用场景。Spark支持多种编程语言和丰富的组件库,如Spark SQL、Spark Streaming等,可以用于数据处理、机器学习、图计算等任务。 Zookeeper是一个开源的分布式协调服务。它实现了一个分布式的、高可用的、高性能的协调系统,可以提供诸如统一命名服务、配置管理、分布式锁等功能。Zookeeper能够帮助大数据系统中的不同组件进行协调和通信,确保分布式系统的一致性和可靠性。 综上所述,Hadoop用于分布式存储和计算,Hive用于数据仓库和查询分析,Spark用于高性能的集群计算,而Zookeeper用于分布式协调和通信。这四个技术在大数据领域中扮演着不可替代的角色,相辅相成,共同构建了现代大数据生态系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值