见良:学习多媒体主要靠实践

640?wx_fmt=jpeg


LiveVideoStack邮件采访了北京美摄网络科技有限公司CTO 见良,作为十多年的多媒体老兵,他认为学习多媒体技术主要通过实践,必须在实际的项目中锻炼自己。对于未来,机器学习结合计算机图形学可以实现智能剪辑,制作出更有趣的视频。


文 / 见良

策划 / LiveVideoStack


LiveVideoStack:见良你好,能否向LiveVideoStack的读者介绍下自己,以及目前主要的工作以及关注的技术方向?


见良:目前主要是移动端高质量的视音频技术解决方案,包括视音频的采集,编辑,特效合成,为各种视音频应用提供底层技术支持。目前主要关注视音频处理架构设计,算法设计,视音频AI处理。


LiveVideoStack:15年来一直在从事视频处理相关的研发,没有考虑过更换个技术方向吗?如何保持对技术的好奇心?


见良:视音频技术总是在不断发展的,以前用传统计算机图形学、图像处理算法难以解决的问题,现在通过卷积神经网络能解决的相当不错。同时市场用户不断提出新的要求,不再满足一般低质量、五毛特效,要求效果越来越真实,更炫酷,更简便。厂商要求技术也越来越高,更高的清晰度,更小的资源,更高的效率。


LiveVideoStack:一种观点认为,现在做多媒体开发比十年前容易很多,因为有许多强大的开源框架、工具(如WebRTC、FFmpeg、x264),您怎么看这种观点?

     

见良:确实是强大的开源框架能助力开发,但是视音频处理要求更高,所以开源的项目要谨慎选择,它们普适性很强,为了追求更好效果、更高的质量,我们有自有的高效率框架,在需要的地方合理的去使用这些开源技术。


LiveVideoStack:搞多媒体开发需要学习大量的基础知识,而且需要在实际工作中摸爬滚打。对于学习多媒体开发,您有哪些建议?能否推荐一些多媒体开发相关的学习资料或书籍。


见良:学习多媒体主要靠实践,比如可以阅读一些开源项目的源代码(比如FFmpeg,GStreamer等)并使用其做一些简单的项目,如果参与到其开发中那就更好了。此外再接触一些商业的多媒体框架,比如DirectShow, MediaFoudation, AVFoundation等等,这样可以比较快速地了解多媒体的基本概念以及基本处理流程。


LiveVideoStack:您认为CTO的核心职责包括哪些?是否需要写(或review)代码呢?


见良:CTO主要确定公司的技术方向,构建公司的技术体系,为公司的战略提供强有力的技术支撑。CTO在每个阶段的工作重点是不一样的,是有必要写代码的。


LiveVideoStack:您主导开发了敦煌视觉效果合成系统,能否简单介绍下这个产品。在研发的过程中,有哪些难忘的故事?


见良:敦煌视觉效果合成系统是国内第一款后期合成包装系统,这个产品主要面向电影,电视剧广告的后期合成包装,它涉及颜色校正,抠像,遮罩,跟踪,三维摄像机反求等等非常复杂的算法,它的定位是顶级的视音频合成系统,也是获得国家科技进步一等奖项目的技术核心部分。最难忘的是当时我们做算法就封闭开发了一年多,算法效果出来后我们请了国内顶尖的做后期合成的专业人士来帮我们看这些效果是否可以用于高端视音频制作了,经过专家三天的详细测评对比给了相当满意的结果,这样我们有坚定的信念去软件架构的搭建和应用软件的开发了


LiveVideoStack:能否介绍下美摄SDK这个产品,他有什么技术特点?

    

见良:兼容性,高效率,高质量,可扩展性。


LiveVideoStack:音视频领域还有哪些学界、工业界公认的难点?未来几年,哪些难点有可能取得突破?

     

见良:智能的剪辑合成是困难的,未来通过机器学习的技术结合传统计算机图形学图像处理能有效降低视频制作的难度,同时提供有趣的视频玩法出来。



640?wx_fmt=jpeg

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值