从音视频技术看AI的机会和挑战

原文链接:http://bj2019.livevideostack.com/schedule?utm_source=CSDN\x26amp;utm_medium=wechat

640?wx_fmt=jpeg


作者 | 包研,LiveVideoStack主编


我关注AI完全是被动的,直到两件事改变了我对AI的看法。第一件发生在2017年5月,AlphaGo以3比0战胜柯洁。我的一个朋友当时在乌镇现场感受了这场人机大战,她向我描述了柯洁被逼到走投无路的无奈与绝望表情。另一件事在2018年初,现场聆听了蒋涛关于AI的分享,其中介绍了在Google内部,AI已经在大部分产品上应用,包括Youtube。由于工作关系,Youtube在AI方面的应用自然引起了我的注意,比如通过AI理解视频内容,自动截取最能表现视频内容的关键帧,可用于生成视频封面。


事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI在音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现。接下来,我来梳理下AI在多媒体各个场景下的应用。


内容理解


AI内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好的处理视频,比如可以针对不同的视频内容选择不同的Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI可以把竖版的短视频裁剪成适合横屏播放的内容。


此外,AI还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix走在业界前沿,可以多关注。


图像增强


关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了AI加持的图像增强技术。比如,将SDR转换为HDR视频,视频超分(将720p变成1080p),每秒30帧视频变换为每秒60帧等等。


AI与ABR


ABR即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅的观看视频,并且最大化的保证画质。ABR算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI的出现可以进一步提升ABR的效果,最著名的要数MIT提出的Pensieve。去年,著名的网络技术学术会议SIGCOMM上,也有二十多篇是关于机器学习的。


语音识别与语音合成


从Siri到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如Google开源的Tacotron已经可以实现99%的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多的通过AI生成。


回声消除


这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的Android设备上,如果只有一个麦克风就需要利用AI来帮助消除回声,效果非常不错。


声纹——人声识别与音乐识别


声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而DNN可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐App都集成了相关的功能。


此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广告合作方面更加精准。


以上粗浅聊了聊AI在音视频领域的具体应用,仅仅是冰山一角。无论你是否选择从事AI与多媒体领域,学习一些AI的基本知识还是很有必要的,但你如果想大干一番,而不是随便发一些paper,混个offer,来那些掌握海量数据的公司,能让你大显身手的。


640?wx_fmt=png



在8月23-24日的LiveVideoStackCon 2019北京音视频技术大会上,有许多我非常期待的AI相关的话题,作为大会主编,每一个讲师都是我亲自甄选和沟通,并参考各个专题出品人的建议。


《如何进行动态协议优化》 Akamai 高级工程经理 Darren Ng

《“京享超清”在复杂网络下应用与视频体验保障》 京东云 架构师 张树军

《强化学习下的自适应码流服务》 爱奇艺 资深工程师 王亚楠

《高效视频处理与AI融合架构》 Aupera 创始人兼CEO 廖玉峰

《AI视频增强与编码损伤修复协同处理方案》 西安电子科技大学 硕士生导师 何刚

《实时视频码率优化实战》 好视通 高级架构师 张弦

《AI驱动的音频、视频效果新玩法》 相芯科技 资深图形引擎开发经理 蔡锐涛

《沉浸式音频技术的采集,传输,播放,以及应用场景初探》 时代拓灵 创始人,CEO 孙学京

《深度学习图像算法在内容安全领域的应用》 网易易盾 资深算法专家 李雨珂

《端对端语音识别及其应用》 滴滴出行 首席算法工程师 李先刚

《视频编解码优化以及与AI的结合》 RealNetworks Senior Lead Staff 况超

《声纹识别与防录音重放攻击》 清华-得意音通声纹处理联合实验室 博士生 程星亮

《多模视角下的内容理解算法与应用》 快手 多媒体内容理解部负责人 李岩

《音频指纹技术在流媒体音乐平台的应用》 网易云音乐 音视频实验室负责人 刘华平

《xNN:支付宝App中的实时AI引擎》 蚂蚁金服 高级算法专家 周大江

《深度学习在回声消除中的应用》 大象声科 高级音频算法工程师 闫永杰

 

点击阅读原文,了解更多议题讲师与大会详细日程。

展开阅读全文

从“棱镜门”看回溯技术的应用

07-12

随着网络技术的进步和不断发展,让大规模的监控和数据收集行为变得越来越易,最近曝光的美国“棱镜”项目监就是非常典型的此类事件。从技术的角度来看,“棱镜”项目得以实施,除了跨国公司(google、微软、思科等)、政府提供支持以外,还有一项至关重要的技术,即近年被炒得火热的“大数据”技术,情报部门通过遍布全球的监控系统、设备系统0day漏洞、网络攻击等手段从世界各地获取海量的数据,通过数据仓库、数据安全、数据分析、数据挖掘等手段将这些碎片数据拼成“大数据”并进行利用,从而获取到有价值的数据和线索。rn 那么,对大数据进行利用的基础和前提是什么呢?肯尼思·丘基尔在《大数据:一次将改变我们生活、工作和思考方式的革命》一书中提出:大数据的价值在于存储后的再使用。也就是说,首先是要把这些数据存下来,并在存储过程中,为这些数据建立相应的关联依据,以方便用户查询使用。再说得直白点,就是将数据保存下来,用户可以对这些数据进行回溯查询、回溯分析、回溯挖掘,跟现在流行的网络回溯分析技术相类似。rn 网络回溯分析以数据包(Packet)为基础,依托TB、PB级的存储空间,在存储过程中对海量的数据包进行关联,用户可以随时分类查看及调用任意时间段的数据,当发现问题时,提供一定时间范围内的回溯分析,为迅速定位问题发生原因提供了更全面的分析依据,同时为网络安全提供了强有力的数据分析保障。通常情况下,网络回溯技术及产品可以广泛用于局域网、互联网、物联网、智能电网、工业控制系统等。下图为回溯技术的功能及原理图:rn[img=https://img-bbs.csdn.net/upload/201307/12/1373608421_901790.jpg][/img]rn 如上图所示,网络回溯分析技术适用于网络管理的很多方面,那么它的优势具体体现在哪些方面呢?rn回溯分析设备分布式部署,集中管理,同时能够针对网络全局制定统一的安全策略,也可针对下属或分支网络分别制定不同的预警条件,一旦发生告警,则可提取该时段的告警数据进行深度分析,以此提前发现并解决安全隐患,防止安全事件的进一步扩大。rn 安全基线预警方式包括:流量预警,邮件敏感字预警,可疑域名预警,数据流特征值预警等,通过对安全基线的制定,能够准确判断网络的安全运行态势,及时防止可能发生的安全事件。rn回溯警报以网络行为产生的数据包为依据,具有误报率低,查找源头方便等特点。rn[img=https://img-bbs.csdn.net/upload/201307/12/1373608433_460883.jpg][/img]rn建立网络通讯模型,快速发现异常通讯rn 企业、通过对“大数据”的分析,可以获取用户的行为习惯、爱好,从而更高效的为用户提供服务,“棱镜”项目通过对“大数据”的分析利用,可以获取用户的联系方式、账号、行为模式、通话记录等。而利用回溯分析技术则可以对网络通讯建立模型,快速发现网络里的异常通讯和行为。rn网络行为模式识别技术依靠对大量的网络数据分析,智能分析数据流的通讯行为特征并建立行为识别模型。主要针对源地址、目的地址、源端口、目地端口、协议、发送时间、接收时间、发送时间频率等信息进行综合分析,建立综合的识别模型,以作为对异常网络通讯的判断依据。rnrn网络攻击自动分析、发现rn 回溯技术通过对大量的网络通讯特征,行为特征,行为模型以及OSI链路层到应用层的深入分析,系统能够检测各种网络安全通讯行为及可疑的异常通讯,包括:rn蠕虫病毒检测及其通讯特征分析;rn木马检测及其特征分析rn网络攻击行为检测(ARP攻击/TCP 端口扫描/TCP SYN Flood/TCP ACK Flood/ICMP Flood/UDP Flood/MAC Flood等几十种安全事件)rn其它网络异常通讯检测分析rnrn取证分析、责任界定rn 如果网络中出现了问题,可以对出现问题当时的所有访问流量和内部的通讯流量进行回溯分析,通过数据包级的分析能有效的定位问题点,帮助快速解决问题,保证网络正常运行。rn问题的追溯分析:系统能长期记录保存所有访问运系统以及各业务系统各主机间的通讯数据,一旦出现异常,能够将存储的数据包提取出来进行分析,提供有效的分析依据。rn问题的迅速定位:通过分析网络系统的访问通讯数据,进行数据包级的分析,能够迅速定位到问题点,是由于网络问题引起的还是应用问题引起的。rn安全问题的分析取证:出现安全事件,可以通过详细的数据分析来对当时的网络访问和所有通讯数据进行深入分析,提供直接有效的分析依据和证据。rnrn 综上所述,随着网络不断的发展,网络监控、信息泄密、网络攻击等行为变得越来越容易,网络管理者必须不断的提高网络管理的办法,实践证明利用网络回溯分析技术能实时的监控分析网络运行情况,及时发现网络及应用系统的异常行为,并提供强大的安全分析功能,是保障网络安全高效持续运行的非常有效的手段。 论坛

没有更多推荐了,返回首页