老司机谈鉴黄，新一代“鉴黄师”是如何养成的？

最新推荐文章于 2023-11-20 11:09:01 发布

weixin_33940102

最新推荐文章于 2023-11-20 11:09:01 发布

阅读量1.1w

点赞数

文章标签：大数据人工智能

原文链接：https://yq.aliyun.com/articles/151705

版权

在互联网高速发展的今天，直播平台，内容社区，视频网站等UGC/PGC平台蓬勃发展，如雨后春笋般出现。但巨大的安全隐患也接踵而至，内容审核成为企业最关键的一道防火墙。企业招聘大量的内容审核专员来应对包括色情、暴力、犯罪等多个方面的不良内容。其中鉴黄师可能是最神秘也最令人遐想的岗位了。

说起鉴黄师，大家会心一笑，看看黄图还有高收入，简直没天理。但是在从业人员看来，它真的那么令人向往吗？阿里聚安全小编专访了负责阿里内容安全（阿里绿网）的资深赛车手——来自阿里安全多媒体算法团队的唐秋。常年战斗在一线的他，是如何学习高超的驾驶技巧？

从鉴黄师到“鉴黄师”

唐秋告诉小编，鉴黄师发展到今天，它的身份已然有着不同的变化。

第一代鉴黄师正如大家所想的那样，通过一双肉眼鉴别淫秽图片和视频。但这份工作并不轻松，他们每天需要完成海量的图片视频鉴别。因此长时间从事这份工作，不仅对身体是一种摧残。观看太多的色情作品，甚至扭曲的色情作品，还会对心理造成极大的创伤，影响正常的性生活和婚姻关系。

图片来源于网络

在人工鉴黄成本上升和互联网日益猖獗的色情信息的环境下，第二代“鉴黄师”应运而生。

第二代“鉴黄师”从人工鉴黄演变到机器智能鉴黄，通过人工智能、深度学习和大数据样本等技术，千万张正常图片与色情图片的训练模型，最终生成一个智能鉴黄模型。

智能鉴黄模型生成步骤

上面这张图的步骤里，制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的，不同的人对同一张图片的认识往往不一样。

打个比方，女性泳装图片，如果以沙滩为背景如何判定，换成室内环境呢？儿童的写真该如何判断？

为了制定标准，他们了承受很大的压力，一旦没处理好，会引起舆论的压力和监管部门的处罚。阿里内容安全团队的运营与算法同学一起讨论修订了数次才有了初版，并且在后续打标过程中根据遇到的问题进行了几次增补，标准才稳定下来。

阿里内容安全的智能鉴黄技术使用非常简单，输入一张图片或视频，算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率：得分99及以上的图片几乎可以肯定是色情图，可以机器自动处理；得分50-99的需要人工审核；得分50以下的认为是正常图，因为50分及以上包含了99%以上的色情图片。

阿里内容安全的图片识别结果

在获取最初的样本过程中，唐秋告诉小编一个数据：近2000网站，6000+万疑似色情图片，1300+万的高质量标注。他说这是智能鉴黄最重要的一块基石。

“老司机”带着“新司机”

在这个阶段，传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。他们给得分在50-99的图片视频标注“正常”、“性感”、“色情”的分类，机器根据标注去学习，让它们变的越来越聪明。

那么有一个问题：会出现教会徒弟，饿死师傅的情况吗？

“教会徒弟后，是让师傅更加轻松。而且，师傅和徒弟可以互相学习，共同进步”。唐秋告诉阿里聚安全小编，智能审核+人工审核是目前国内互联网公司主流的内容审核方法。

智能审核为主

智能识别每天可以处理几亿张图片，不仅可以节省企业大量的人力成本，并且大大提高识别的准确率。还能提供音视频、文字、直播等形式的内容检测，覆盖鉴黄、暴恐、涉政、广告等多种内容风险。每一条视频/信息的发布，都将经过机器和人工等多道审核。

以上智能审核的功能可以访问阿里聚安全提供的内容安全服务免费测试体验（http://jaq.alibaba.com/green），企业可使用户通过低成本的一次接入，与OSS、ECS等云产品无缝对接。它支撑着阿里系淘宝、支付宝等核心业务的内容安全。目前微博、熊猫TV、支付宝都在使用阿里内容安全功能，覆盖社交、直播、金融等多个行业。

人工审核为辅

虽然在后期机器识别越来越精准，可以胜任绝大部分的审核工作，但是相比人工审核还是有一定的局限性。因为机器还很难模拟出正常的用户体验，很难理解内容背后的深意，很难作出准确的“人的判断”。并且直播和视频行业盛行的今天，机器检测其内容的难度较大，还是需要人工来辅助审核完成。

但随着智能技术的更新，识别效率的提高，人工审核的占比将越来越低，人工智能或许可以彻底将传统鉴黄师以及内容审核专员解放出来，最终传统鉴黄师将会往第三代发展。