搞多媒体开发?吴威麒:先拉个书单看看

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


从2017年4月22日一场LiveVideoStack活动开始,每次活动都会选1-2本技术图书作为奖品。我们相信阅读这件事情“从来都不晚,一直都有用。”大多数技术牛人都推荐研究开源项目的源码,勤看论文,但推荐高质量的多媒体开发领域的技术图书并没有达成共识。今年,我们先后推荐了《移动音视频开发进阶指南——基于Android与iOS平台的实践》和《FFmpeg从入门到精通》(想要得到刘歧大师兄这本书的同学可以关注我们在上海的活动《LiveVideoStack Meet上海:多媒体开发新趋势》

本文是对触宝科技音频技术专家吴威麒的邮件采访,他非常详尽的推荐了多本多媒体开发经典图书。


策划 / LiveVideoStack


LiveVideoStack:吴威麒你好,能否简要介绍下自己,包括目前的主要工作及关注领域?


吴威麒:我是2013年毕业于上海大学通信与信息工程学院,信号与信息处理专业。毕业后从事过一年的音视频应用层开发,之后主要专注于音频算法方面的研究与开发。目前在触宝科技担任音频技术专家,主要负责优化PC端和移动端的通话音质。自己比较感兴趣的领域包括语音增强、音乐分析、数字音效、语音合成与识别、VR技术、以及深度学习在音视频领域的应用。


LiveVideoStack:对于学生或没有多媒体开发经验的技术人而言,如何从零开始学习多媒体开发?有哪些学习文档、图书、资料推荐?


吴威麒:对于想从事多媒体工程开发的新手,推荐以开源项目FFmpeg为中心,首先学会应用,再熟悉整个架构,最后对自己感兴趣的模块深入到源码学习,遇到问题会查相关资料,这样可以快速入门。


对于想从事语音信号处理与音频算法开发的同学和新手,一方面吸收开源工程的优秀模块,但更为重要的是要学习相关理论基础,在这里给大家推荐一些书籍: 


《Discrete-Time Signal Processing》


这本数字信号处理图书是最为经典的图书之一,作者是奥本海姆,他为数字信号处理这门学科的建立和推广起到了极为重要的作用,因而在信号处理界拥有巨大的声望。


《Discrete-Time Speech Signal Processing: Principles and Practice》


这本书是数字信号处理在语音领域应用的经典书籍之一,全书以概述的形式阐述了语音信号处理的方方面面:包括语音发音机理,声道建模,语音编码、语音增强、语音合成与变换、语音识别、说话人识别等,可以让大家对语音信号处理领域有个全面的认识。


《Matlab 之语音处理与合成工具箱》,《MATLAB语音信号分析与合成》


这两本书可以让大家对语音有个更加直观的认识,熟悉语音的生成、元音和辅音建模生成、语音的相关特征以及控制参数重新合成语音。


《Real-Time Digital Signal Processing Fundamentals, Implementations and Applications》


这本书的主要特点是除了理论叙述外,还有与之相关的工程实践,进一步让读者加深理解,同时加强动手能力。


还有一些特定领域的书籍: 


  • 语音识别:《Speech Recognition: Theory and C++ Implementation》

  • 数字音效:《Digital Audio Effects》

  • 语音增强:《Specch enchancement theory and practice》


以上的这些都是语音与音频信号处理的基础书籍,里面阐述的都是一些经典方法,如果要做出更好的效果,这些是远远不够的,需要多读论文,多动手仿真,学会筛选资料,有自己的想法,用工程手段避开技术盲区等,才能以最短的时间做出最优的效果。


最后,希望能给予这块的研发人员更多一点耐心。因为每个技术细节可能有很多相关的文献,经常会仿真了很多文章,效果都不理想,即使找对了资料,很有可能忽视了某些细节,很长的一段时间都没有突破,甚至有些需求通过技术手段目前是无法落地的。


坑很大,研发不易,且行且珍惜。


LiveVideoStack:展望未来,你认为多媒体技术在哪些场景或行业有机会重度使用?


吴威麒:未来比较看好VR和AR音视频产业的发展,它改变了音乐、影片、游戏等制作方式,大大提升了人们的感官体验,丰富了人们的娱乐生活。整个VR产业链,包括VR硬件设备制造,VR内容生成制作,以及VR内容平台和分发等,将会大放异彩。除了被动接收内容,通过手势或者语音或者虚拟按键,让交互变得简单、立体化,一切变得越来越智能,如果可以的话,完全生活在一个虚拟世界里,不用出门,就能感受到南极的风光、喜马拉雅山的壮丽、撒哈拉沙漠的神秘…


另外,比较看好AI产业助力制造业、物联网改造升级,让人们控制设备变得更加容易和方便,甚至通过AI大脑控制所有设备,实现更高精度、所有零件实现标准化、完全自动化,将人们从简单无聊的工作中解脱出来。 



更多精彩分享,我们在上海等你


如果你对多媒体开发感兴趣,希望了解多媒体技术在音视频领域以及新兴应用场景和传统行业的发展新趋势,新实践,4月21日【多媒体开发新趋势沙龙】+5月19日-20日【WebRTCon 2018垂直大会】,我们在上海等你!


吴威麒老师将在两场活动中分享实时语音通信过程中的回声消除、噪声抑制,以及音量控制,并对实时语音通信中的语音处理技术的未来发展做展望。此外我们还准备了更多精彩的内容:


  • 《如何使用机器学习算法优化分发链路》 曾小伟 PP云技术副总监

  • 《iOS实时相机的GPU实践》 沈轲轶 腾讯天天P图iOS开发组长

  • 《超高清VR直播技术的演进与挑战》 盛骁杰 优酷VR技术专家

  • 《实时音视频技术赋能传统行业》 崔文秀 三体云联产品副总裁

  • 《Animoji动态表情的技术实现》 蔡锐涛 相芯科技图形引擎负责人


640?wx_fmt=jpeg


点击 [ 阅读原文 ] 了解相关活动信息,快来报名吧!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值