关于内容审核，你需要了解的东西，这里都有！

最新推荐文章于 2024-09-08 08:35:56 发布

网易数帆大数据

最新推荐文章于 2024-09-08 08:35:56 发布

阅读量6.7k

点赞数

文章标签：反垃圾内容安全内容审查 UGC 人工审查

本文由网易云发布

用户原创内容是电商和社区的生命线，但它在非法分子手中也会变成一个强大的作案工具。内容审查人员必须迅速响应，时刻严防侮辱性内容的传播。如果不这样做的话，这些内容就可能会对公司的品牌和影响力造成非常严重的损害。

内容安全架构师Kevin Lee和Jeff Sakasegawa在这方面有着相当丰富的经验，他们分享了有关内容审查方面的实践。

什么是内容审查？

KevinLee：内容审查就是审查你的平台上用户生成的任何内容（UGC）。如果是Yelp，那就意味着审查用户的评分和评论；如果是Facebook，则意味着要审查用户可能在网站上发布的任何内容。

哪些类型的网站、电商或者社区可能会得益于内容审查人员？

JeffSakasegawa：所有的UGC网站！任何UGC网站都必须时刻对用户体验保持一定的敏感度，电商和社区通过内容审查来培养用户的信任度，并为用户之间的交流建立一个安全的空间。

有哪些内容审查是主动的，有哪些是被动的？

KevinLee：大多数公司都缺少相关的基础设施和工具来主动审核侮辱性内容。这是因为这些公司在搭建UGC平台时不会在内容审查系统上投入太大的成本。

像Facebook、Yelp和Google这样的大公司采取了两种更主动的方式：第一种方法是使用机器学习，并让用户能够标记有问题的内容。第二种方法仍然是被动的，因为它依赖于用户上报侮辱性内容，但它更积极主动，因为内容管理系统可以利用上报的内容在未来剔除类似的内容。

反欺诈和风险团队如何将内容审查纳入到公司战略中，以提升公司的品牌和安全性？

KevinLee：允许UGC的公司必须要在产品级上具备内容审查的能力——在技术路线图中增加审查功能，或者允许用户标记不适当的内容。

例如，Facebook在曾经很长的一段时间内都不允许用户标记有问题的内容，他们的用户是一个巨大但尚未被开发的内容审查源。事实上，内容审查不一定来自内部团队，它也可以是外部团队。如果社区中的任何人被允许发布内容，那么任何人都应该能够上报不适当的内容。

JeffSakasegawa：如果团队在一开始的时候没有把内容审查考虑进去，那么到后面就一定会遇到各种问题。从你业务发展的初期就考虑内容审查，并思考如何使用机器学习系统进行自动化审查，这是非常重要。如果你提前将内容审查纳入到公司战略中，那你就可以更好地扩大业务运营。

内容审查人员必须小心谨慎：要清除彻底，但又不能误杀。在遇到有争议的内容时，内容审查人员在保证工作效率的基础上是如何处理的呢？

JeffSakasegawa：如果你跟内容审查人员交流过，那么你可能会发现，要清楚彻底，又不能误杀是非常困难的！这个问题在很大程度上来自于审查人员本身存在的倾向。假设某人在网站上发布了一个提问的帖子。现在许多网站都可以利用第三方信息来了解这个用户的很多信息，这些信息可能表明该用户是一个十分令人讨厌的人。一旦内容审查人员知道了用户的背景，他们就可能会去推断用户的意图，让自己带着有色眼镜去审查这个用户的帖子。

对于内容审查人员来说，根据制定的政策和程序进行判断可能非常困难。他们必须专注于服务条款，并将他们对用户的主观感受与现有的规则区分开来。

内容审查中可能出现哪些灰色案例？

KevinLee：假设你的平台不允许发表仇恨性言论。问题是仇恨性言论有几种不同的判断标准。在推特上，你不能针对某个特定的种族或宗教。但这个问题很快就会变得模糊起来：虽然你可能可以说“我讨厌美国人”，但你是否可以说“我讨厌白人”呢？恐怕是不行的。

JeffSakasegawa：一般来说，公司不允许用户对受保护的东西发表恶意观点。但是，受保护的东西可能因公司而异。大多数企业通过在表达观点和威胁行动之间画一条线来处理灰色地带。例如，“我讨厌凯文的发型”这句话与“每一个有着像凯文一样发型的人都欠揍”有着很大的区别。尽管两句话都对他的发型持否定态度，但第二句话崇尚暴力。

但是，许多在线社区都有自己的暗语。例如，Twitter不允许你对犹太人做出仇恨性评论，但社区可以开始使用暗语来指代犹太人，以绕过这些政策。

在线社区或电商网站上，内容审查人员该如何制定明确的指导政策来确定哪些内容可以接受，哪些不可接受？

KevinLee：制定指导政策最简单和最有效的方法是提出哪些内容可以接受，哪些不可以接受的具体例子。虽然理论性的指导政策很重要，但这些政策的实际应用同样至关重要。当你需要扩充内容审查人员和训练模型的时候，这一点尤其重要。

人工内容审查有哪些限制和缺点？

KevinLee：有三个主要的限制，分别是规模、灵活性和响应时间。

规模：随着平台的发展，雇用和培训人员的速度很难跟上平台发展的步伐。
灵活性：举个例子，如果你想把业务拓展到保加利亚，那么你必须快速找到可以用保加利亚语审查内容的人员。
响应时间：网站上的内容可以在一天中的任何时间发布，这意味着审查人员必须二十四小时不间断地工作，尽管他们已经很疲劳了。机器学习可以解决这三个限制。

JeffSakasegawa：其中，规模是最重要的。侮辱性的内容是活的，它可以被截图并共享，甚至可能会进入新闻界，这会严重损害公司的形象和利润。即使你拥有一个强大的内容审查团队，他们快速响应这些内容的能力也是有限的，他们也很难无偏见的进行审查。这正是机器学习充分发挥作用的时候，它没有这样那样的限制，它会随着业务的发展而发展。