从多媒体技术演进看AI技术

最新推荐文章于 2023-11-25 07:24:33 发布

AI科技大本营

最新推荐文章于 2023-11-25 07:24:33 发布

阅读量1.4k

点赞数

原文链接：http://sz2019.livevideostack.com/speaker?utm_source=CSDN\x26amp;utm_medium=wechat

版权

640?wx_fmt=jpeg

（图片付费下载自视觉中国）

文 / LiveVideoStack主编包研

在8月的LiveVideoStackCon2019北京开场致辞中，我分享了一组数据——把2019年和2017年两场LiveVideoStackCon上的AI相关的话题做了统计，这是数字从9.3%增长到31%，超过三成的大会演讲内容与AI相关。多媒体技术生态只是真实世界的缩影，反映出AI正在与各行业、各种结束结合。包括CSDN在内，大大小小的机构推出各种AI学习课程、图书正迎合了这一趋势。

相对而言，AI的学习曲线比较友好，上手相对容易，只要会Python或其他高级语言，掌握1-2个机器学习的框架，可以很快跑出结果。不过学习多媒体就没那么美好了，据说搞多媒体的研究生，先要用1-2年把H.264标准通读并理解，真正的研究还没有开始。我相信，同等水平的学生用同样的时间去搞AI，出几个paper，拿若干大厂的offer是可能的。我记得在4月的LiveVideoStackCon上海大会上，一名北大的教授就感叹：

你只要想多媒体技术，学编解码，别说是数学专业的，就算是英文专业、历史专业的我也收。

那么AI与多媒体技术有哪些结合的地方呢？

内容理解：AI内容理解并不限于生成封面图，精彩剪辑，或者只看某个角色的镜头，这在内容推荐、广告平台有帮助。此外，内容理解还能帮助更好的处理视频，比如可以针对不同的视频内容选择不同的Codec，以及相关的编码工具。

图像增强：比如，将SDR转换为HDR视频，视频超分（将720p变成1080p），每秒30帧视频变换为每秒60帧等等。

AI与ABR：AI的出现可以进一步提升ABR的效果，最著名的要数MIT提出的Pensieve 。

语音识别与语音合成：从Siri到小冰，从智能手机到智能音响，语音识别已经无处不在。而语音合成则是让电脑把文本变成语音，比如Google开源的Tacotron 已经可以实现99%的人声还原。

回声消除：在一些低端的Android设备上，如果只有一个麦克风就需要利用AI来帮助消除回声，效果非常不错。

声纹——人声识别与音乐识别：DNN可以掌握更多的声音特征，从而降低风险。而在音乐识别方面则没有那么高风险，各大音乐App都集成了相关的功能。

在LiveVideoStackCon 2019深圳上，自然少不了AI相关的话题：

香港城市大学计算机科学系助理教授王诗淇——基于视觉感知特性的视频编码
51talk高级技术总监陈靖——深度学习在语音降噪中的应用
网易易盾资深算法专家李雨珂——音视频内容审核中的人工智能
相芯科技资深图形引擎开发经理蔡锐涛——AI驱动的沉浸体验新玩法
学而思网校技术总监李金瑞——学而思网校QoE优化实践

了解更多讲师信息可点击 阅读原文 ，使用邀请码【CSDN】购票更可获得惊喜优惠！

AI科技大本营

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从多媒体技术演进看AI技术

（图片付费下载自视觉中国）文 /LiveVideoStack主编包研在8月的LiveVideoStackCon2019北京开场致辞中，我分享了一组数据——把2019年...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。