好声方可入人心，数美科技智能音频审核方案为音频内容消费保驾护航

数美科技

于 2020-12-09 22:14:41 发布

阅读量1.2w

点赞数

文章标签：人工智能音频审核内容安全数美科技业务风控

本文链接：https://blog.csdn.net/SHUMEITECH/article/details/110942176

版权

语音，是人天然的沟通形式。相比起文字，语音所包含的顿挫、情感、语气、音量能够传递出更加直接和真切的信息。在历史中，人对传输语音也充满了渴望，从书信到电话、电台、唱片、磁带、光盘，人总是在用更前沿的技术记录和传播更加多样的语音。

进入计算机和互联网时代，随着存储空间和网络带宽的进步，人们语音沟通的界限也逐步拓宽，一批批网络语音聊天室和语音软件的兴起，既满足了语音沟通的需求，也丰富了网络社交的沟通形式。

至于如今信息更加爆炸的移动互联网时代，语音沟通的内容和形式被进一步扩张。微信的出现极大地推动了文字消息沟通到“文字＋语音”的变革，既能分条发送语音和文字消息又能在线通话是它作为沟通工具的最大特性，这让它收获足足１２亿用户，占到中国总人口的８５％，如今的市场上也存在着大量相似的聊天社交软件。

在这里插入图片描述
而语音作为信息传递的关键形式，也随着移动互联网时代媒介形态变革出现了更多的消费形式，除去语音消息之外还呈现出语音直播、语音点播、语音文件等多种形式。

例如近年来游戏行业的爆火催生出“语音游戏陪玩”这一新兴行业，为网络游戏玩家提供游戏语音陪伴服务；各种新兴在线K歌软件颠覆了传统的线下场景，提供多种多样的在线K歌房服务；与视频直播同期出现的音频内容直播等等都是语音直播的不同变体。

在这里插入图片描述
早在2004年，播客（Podcast）的出现就已经呈现出语音点播这一内容消费形式的初始形态。相比电台，播客具有内容的多样度、订阅的简易度和收听的自由度，承载起多种多样的语音点播内容。现如今，语音点播的内容呈现更加丰富多彩的形态，除了传统的主播讨论的播客形式，同时还有有声小说、剧情演绎以及更具感官性的ASMR等。云时代更加强大的云储存能力和更便捷的分享方式也为语音文件的储存和传播提供了充足的技术基础。

在这里插入图片描述
面对如此庞大的语音消费和使用需求，语音内容违规风险逐步增加，在语音内容中可能混杂有涉黄、涉暴、涉恐、涉政等敏感信息，同时还可能出现例如同音字变体电话号、微信号等各种违规导流广告，以此博取眼球吸引流量和诱导消费，对用户的财产安全和网络环境纯净造成威胁，语音内容提供平台审核的难度和量级可谓与日俱增。

数美科技发现，语音审核除了要考量文本内容是否涉及敏感信息，同时还存在拟声词、感叹词和语气词的审核难度，例如涉及色情信息的娇喘、呻吟等。这为语音审核提出了更高的挑战。而目前很多语音内容提供平台都采用人工审核的方式进行内容检查，这种方法虽然能够提供较好的审核能力，但需要对音频文件进行整段察验，对音频流进行实时监控，造成了较高的时间成本和人力投入。

对此，数美科技旗下的全栈式智能内容识别产品“天净”，能够通过智能音频过滤技术提供强有力的音频内容识别支持。智能音频过滤技术采用基于ffmpeg的音频信息动态转码技术、基于深度学习的语音识别技术和智能特色语义分析技术，能够对绝大部分音频格式进行多场景、多维度地检测与识别。其中包括涉政、涉黄、广告导流等诸多类型。智能音频过滤产品识别准确率高，处理速度快，检测场景广泛，能够极大降低人工审核成本，提升音频内容质量。

在这里插入图片描述
在语音内容获取上，数美科技的智能音频过滤技术支持OGG、MP3、ASF、WMA、WAV、MP3PRO、RM、REAL、APE、MODULE、MIDI、VQF等多种音频格式和音频流，能够应对不同语音内容提供平台使用的常用音频格式，同时支持语音直播实时监控、语音点播、语音消息和各种音频文件的检测。

在获取到待检测的音频文件和音频流后，智能音频过滤主要从四个方面进行内容的检测识别：

涉政违规

利用语音转文本技术将语音信息转为文本信息，再通过成熟的文本内容检测，对音频中出现的多种类型政治违规内容进行检测。

涉黄违规

利用大规模GPU集群的计算能力和深度学习技术，准确快速稳定地识别音频中出现的色情，低俗或性感部分，在管理后台对其进行标注和反馈，从而大规模提升人工审核团队效率，增强用户浏览体验。

娇喘识别

同样利用大规模GPU集群的强大计算能力和深度机器学习的技术，除了一般的涉黄违规语言内容，还能准确识别出娇喘、呻吟等非文本类的特殊声音色情。

导流广告

通过语音转文本技术将语音信息转为文本信息，对文本内容进行关键词检测，识别出潜在的添加微信号、QQ号、QQ群以及虚假信息等导流广告音频内容。

经过测试，智能音频过滤技术对问题音频判断的正确率以及反馈问题音频的正确率均高于90%。在提供高正确率的音频过滤结果的同时，此套解决方案还提供了非常高的处理效率，智能音频过滤API的最大响应时间为1s，超时率低于0.01%，实时率可达到30%。而智能音频过滤API也具有深厚的处理容量，最大支持并发100路处理任务，还可根据需求水平扩展。

除了前文提及的多项技术，智能音频识别还整合了业界一流的语音识别技术、大规模GPU计算的深度学习、基于敏感词库的名单服务、特殊声音识别模型、基于深度学习的NLP模型以及实时分布式规则引擎等。其中深度学习模型包括色情模型、辱骂模型、广告模型等，能够让系统从多个维度检测语义环境，准确识别说话意图。而智能音频识别技术根据不同场景和行业采用了专门化的判断策略，能够提供定制化的过滤服务。

但不可忽略的一点是：不法获利的诱惑是巨大的，对语音内容的审核、管控和下架遏制了语音传播的素材和途径，但不能遏制传播的源头。通俗地讲，智能音频过滤能够扼杀不法分子录制好的语音文件和线上直播音频流，并进一步封禁账号，但无法真正阻止主播和声优继续制作和生产相似的音频，也就是无法让他们永远“失声”。

为此，数美科技正在逐步完善和开发另一大语音识别安全利器——智能声纹识别以作为补充。

所谓的智能声纹识别系统能够通过录音对用户建立声纹，就好像是给每个用户颁发一张声音的“身份证”，无论录音内容如何，“身份证”的关键特征不会有变化。在未来可将声纹与黑名单库进行对比甄别，从而判断该用户是否有“前科”，以此来判断是否对该用户进行封禁处理。这样，就能够让生产违规音频内容的不法用户彻底“失声”。

高效准确的识别算法、广泛多样的格式支持、细致强大的判定能力以及不同用户的定制化服务，数美科技持续为音频内容平台客户提供高效准确的音频内容安全解决方案。