人工智能在内容安全的应用实践

最新推荐文章于 2024-11-15 20:05:10 发布

Cathy_5

最新推荐文章于 2024-11-15 20:05:10 发布

阅读量151

点赞数

文章标签：人工智能

原文链接：https://blog.csdn.net/Diting2020/article/details/127050526

版权

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化，内容安全已经成为互联网企业生存和发展的生命线。然而，传统的内容技术已难以满足企业日益增长的安全需求，就拿图像来说，传统的色情识别技术为例，就经常会存在误判、错判、漏判等情况。

基于深度学习模型的图像分类，则可以实现更高的准确率，以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑：下载集群和并行计算，然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理，最后给出结果处理。这一套流程下来，平均时长仅在500ms以内。

在文本内容识别上，之前的传统技术存在着：

变化多：垃圾变种形式多样。

内容重复率低；规则系统需要及时维护，庞大的规则库才能较好的拦截，人工审核量巨大。

内容短：1-2句话居多，词汇量少；常规的文本分类模型不适用。

语义：部分敏感词有多重语义；容易误判正常语境下的内容。

词序敏感：同样的词在不同词序下会有不同的语义；现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理，包括垃圾内容变种智能识别与修正、多重意义上下文短文本垃圾检测、Deep Learning垃圾检测等。其中垃圾内容变种智能识别与修正，能够结合上下文，智能识别同音、拼音、形近、拆字、符号等变形内容。通过事先收录的拼音库、形近字库、拆字库、符号库等字典，找出有变种嫌疑的内容，再结合上下文语境信息，使用Machine Learning技术判断是否变种并进行修正。汉字有几万个，人工收集形近字耗时耗力，而且不全面。通过算法计算汉字的相似度，快速找出所有的形近字，再进行人工确认，保证精准度。

此外，音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类，对语音事件进行检测和识别，并且返回文本进行文本过滤。基于以上的功能，谛听安全还做了定制化的模型，根据业务需要，将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后，会根据需要进入基础服务阶段或定制服务阶段。模型阶段下，基础分类网络下的数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测，定制分类网络则直接进入目标检测。

谛听帮助用户在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升，包括增加或即将增加全球性语种识别；提升直播、短视频的处理效率；密切配合监管部门，不断完善内容安全标准；并且不断优化审核系统、培养审核团队。