在AIGC加速渗透的当下,内容消费迎来了爆发式增长。面对海量、复杂多元的内容,利用标签体系做好内容分类和标记已是通用手段。尤其在UGC的内容平台,内容标签体系成为智能推荐算法和批量管理的基础需求,应用相对较成熟完善。但在风险内容的管理方面,由于内容较为复杂,且不同平台不同场景对于内容的审核要求不尽相同,目前还难以形成一套标准化的审核规范。
在此背景下,精细化的风险标签体系建设至关重要,能够帮助内容管理人员重塑风险内容识别的精度、深度与效率,提供标准化、精细化解决方案。
AIGC 时代内容管理四大痛点
复杂、海量、多变、时效压力下的审核困境
无论是机审还是人机协同模式,面对AIGC时代的海量复杂内容,平台依然会面临以下诸多挑战:
1. 复杂语义:AIGC内容安全与用户体验的平衡难题
在大模型内容安全领域,不仅关注对象和主题的识别,还需要深入到意图和观点的识别。例如传统方法可能只需标记和拒绝涉及违禁品或敏感主题的内容,但这种方法不适用于大模型,因为它可能会损害用户体验。
例如在提及毒品时,不是所有提及都需要被拦截,而是要区分其意图是否在于教授制作、买卖、运输或诱导使用毒品等有害行为。如果内容是在客观描述、批判抵制或使用比喻手法,这些则不需要被拦截。这种对意图和观点的深入理解,使得大模型的内容安全管理更为复杂,需要更精细化的风险定义。
2. 内容洪峰:人工审核产能瓶颈与成本激增难题
据测算,在保证审核质量的前提下,每个审核人员日均大概可审核常规图文稿件1000条左右,音频5小时左右。若平台每天生产50万条内容,经过机审后,90%的内容没问题放行,剩下被拒的10%需要人工复核,5万条内容也要一个人审核50天。这种体量的平台,仅是保证用户当天生产的内容当天审核通过,就至少需要人工复核的审核人员50位。而在实际的操作中,1个人同一时间只能单线程操作。
对于一些实时流产生的海量内容,人工审核的投入更大。例如数美科技服务的某平台,一天产生的音频流在6000小时左右,大概1.85%共111小时需要人工复审,按照每人每天5小时音频来计算,大概需要二十多人,但实际为了保证平台用户体验,该平台配备了近200人的人审团队。
3. 标准模糊与动态变化:风险内容审核的主观性困境与专业门槛
对风险信息的标准,不同的人往往存在理解上的差异。而除了基本的需求理解之外,敏感信息是随着监管政策、舆情导向动态变化的,目前已有的敏感词过万,且规则复杂,审核人员既要保证平台本身的调性,又要准确过滤掉敏感信息为平台防御风险,对审核人员的政策解读、风险判断能力提出极高要求,导致审核结果一致性难以保障。
4. 毫秒级响应压力:审核效率与培训成本双重挑战
平台为保证用户体验,对审核的效率要求极高,尤其是实时流内容平台,甚至要求毫秒级的响应时间,给内容的审核带来了巨大挑战。而对于人审,提升效率最好的方式是制定相应的培训体系,通过培训统一标准,提升专业性。据数美科技统计,培养一个合格的审核员至少1个月以上,叠加人员流动因素, 这无疑又增加了巨大的培训成本。
四级标签体系
1800+维度构建内容风险 “显微镜”
针对平台的难题和痛点,数美科技基于近十年在内容识别领域的积淀,针对风险内容的海量样本库,已建立起一套完备的四级风险内容标签体系。足够细分的标签,更好地帮助机审优化迭代,同时,也有助于和企业的人工审核进行配合,标签对违规内容进行详细解释,也能帮助人工高效判断并处置,助力平台实现更全面更精细化的内容管理,提高审核效率。
1. 四级标签:从风险大类到意图解析的全维度覆盖
定义风险是内容管理的核心部分。数美科技基于近十年的内容风控经验沉淀了四级风险内容标签体系,覆盖文本、视觉、音频多模态内容,包括色情、暴恐、违禁等7大类标签共1800多个细化标签。一级标签是风险大类别,二三级标签主要是对对象和主题的分类。四级标签(AIGC 时代新增)解析内容意图与观点,实现从 “是什么” 到 “为什么” 的深度识别。
2. 场景化细分标签:未成年人保护与出海合规的精准适配方案
(1)200+未成年人专属风险标签
针对未成年人专项内容治理,数美将未成年相关的风险标签细化到200+个。如霸凌,细化到霸凌意图、霸凌指令、霸凌描述等, 分析是否肯定霸凌价值、表达霸凌意愿、怂恿他人霸凌等意图和观点,这套标签体系对于未成年人相关的风险内容可以做到更精准的定义,助力实现更高效、更精细化的复杂内容识别。
(2)海外特色标签
基于全球政策与文化差异,构建包含宗教符号(十字架、佛像)、种族特征(白种人、黑种人)、地域标识(阿拉伯袍、土耳其国旗)等细分标签,支持企业按地区法规自定义审核策略。通过标签细化训练模型,人机协同效率提升 50% 以上,有效应对出海内容合规挑战。
数美科技的风险内容标签体系基于十年来的行业经验和技术积累,通过完善的模型策略体系,海量样本库、多元化业务场景以及多样化的内容形式,进行多模型的组合训练,在实际应用中不断精细化。
每一次标签升级背后,都是数美科技多团队通力合作的结果。从一个客户需求到一个抽象标签,至少经过四个重要步骤。首先,产品团队会判断现有标签能否满足客户需求,若不能,则开始考量新标签应用的普适性。第二,生成新标签,对标签进行准确定义,收集样本、准备算法等。第三,产品团队思考和撰写标签的使用手册,策略团队准备相应的配置策略,并将用法和策略相结合。第四,上线标签,在行业场景中使用。
标签体系赋能
降本、提效、标准化的三重价值突破
1. 精细化:灵活定制审核策略,识别处置更精准
不同行业,对信息过滤的要求不同,数美科技基于这套精细化的标签体系,可根据不同行业的客户制定更具针性的策略。以智能鉴黄为例,目前行业内的解决方案其实大同小异,可分为明确分类标准、收集样本、样本打标、模型训练等几个步骤。其中,明确分类标准是第一步,且是最关键的一步。数美科技精细化的风险内容标签体系优势,可供不同行业在不同场景下选择最适合自己的审核标准,通过“标签即策略” 的灵活配置,企业无需从零构建规则,直接调用细分标签组合,实现审核方案的快速适配与精细化的高效处置,识别准确率也更高。
比如在视觉标签“性感”大类下细分出男/女性感、男女漫画性感、性感动作等8类二级标签,在此基础上进一步细分出诸如“露肩背”、“轻/中/重度露沟”等200+个细化标签,秀场直播和教育直播对于“露肩背”的接受度就截然不同,通过细化的标签,平台可根据自身的调性选择最适合自己的个性化审核方案。
2. 建立标准与规范:风险内容审核更清晰具体
对于敏感信息的审核标准,监管的相关政策虽提供了指导,但不同行业内并未制定完整详细的规范。数美科技倾力打造的这套风险内容标签体系,将政策内容转换为具体明确的标签,为内容识别领域的标准与规范建立了范本。这套标签还曾用作培训审核团队的标准,解决传统审核中“标准模糊、理解差异” 问题审核人员培训、学习时有了统一、确定的审核标准,培训的效率显著,相应的培训投入成本也大幅降低。
3.可量化可追溯:智能生成风险内容图谱
通过标签对违规内容进行分类标记,可实时生成风险内容分布报告,清晰呈现各风险标签的占比与趋势,为审核策略优化提供数据支撑。同时,支持历史数据回溯,满足特定时期监管要求的内容清洗需求,实现审核工作的可量化、可追溯,提升内容管理的科学性与合规性。
数美科技的四级风险标签体系以“全维度覆盖、场景化细分、动态化迭代” 的优势,成为内容安全管理的基础设施。未来,数美将持续深耕标签体系的精细化与智能化,结合监管政策与客户需求进化,为全球企业提供更高效、更精准的风险内容治理方案。