抖音算法原理全解:行业落地应用价值大揭秘

在信息爆炸的时代,抖音作为全球领先的短视频平台,每天都有海量的内容产生。如何让用户在海量信息中找到真正感兴趣的内容,同时又确保这些内容的合法合规和健康积极?

图片

这背后离不开抖音强大的推荐算法和完善的平台治理机制。今天,就让我们一起走进抖音的算法世界,揭开它神秘的面纱。

抖音恪守透明公开的理念,面向各界公开算法技术的原理与流程,回应社会关切话题。

https://95152.douyin.com/transparency

unsetunset从零开始了解推荐系统unsetunset

https://95152.douyin.com/article/15358

今天,我们生活在信息爆炸时代,在海量信息中寻找自己所需的内容无异于大海捞针。

据IDC(国际数据公司)发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33 ZB(1 ZB等于10万亿亿个字节)增长到175 ZB,以25Mb/秒的下载速度计算,一个人下载全人类2025年产生的数据需要18亿年。

具体到个人,我们面对的新增信息量,也从报纸时代的每天几十个版面、数百条新闻,增加到一个平台每天就有上亿条新内容,远超个人所能处理的极限。

推荐算法:用数学方法高效匹配信息

互联网诞生后,为了高效连接人和信息,共出现过四类主要技术/模式:

  • 第一类是门户网站,核心逻辑是对内容建立分类目录,按目录对不同信息进行集纳,用户按照目录路径查阅信息;
  • 第二类是搜索引擎,其最大特点是基于用户的搜索需求,通过搜索引擎主动搜寻信息;
  • 第三类是社交网络,其特点是用户首先要关注好友或者订阅频道,系统基于此进行推送;
  • 最后一种是推荐系统,特点是系统会更加智能主动地发掘用户的兴趣。

那么推荐系统是如何实现更加高效的信息匹配的呢?

在这里插入图片描述

事实上,推荐算法的本质是个极其高效的信息过滤系统。个性化推荐算法,好比给每个人量身定制了一个信息“快递员”,能更高效、准确地把合适的信息推送到用户面前,满足每个用户各不相同的需求。

今天,这类算法已广泛应用于电商平台(商品推荐)、视频网站(内容推送)及社交网络(好友/信息流推荐),通过“千人千面”推荐显著提升推荐的精准度和用户体验。

而从技术视角来看,推荐算法的基础是机器学习。事实上,机器学习是人工智能的核心技术之一,其定义有很多种,大体都可以归结为通过已有的数据进行数学建模、挖掘规律,随后,在此基础上对未知的数据进行预测。

推荐算法是机器学习技术的重要应用领域之一,其核心目标是通过分析用户的“行为”(点击、浏览、喜欢、转发、收藏等),构建个性化的推荐模型。具体而言,系统会基于用户历史动作、对象特征和上下文环境,采用算法模型预测用户可能会对什么样的内容产生什么样的行为。

传统推荐,不需要算法“懂”内容

“协同过滤”( Collaborative Filtering,简称 CF)推荐算法是最经典的推荐算法之一,至今仍然在广泛使用。所谓“协同过滤”推荐,简单来说就是协同用户的行为,一起对海量的信息进行过滤,从中更加快速筛选出用户可能会产生行为(比如完播、点赞)的内容。

基于内容的协同过滤的大致过程是这样的。比如用户 A 观看了内容 X、Y、Z,用户 B 观看了内容 X、Z、W,那么X 和 Z 之间就有较高的相似度。然后根据用户对已观看或已评分内容的偏好,为用户推荐与这些内容相似的其他内容。重点是计算内容之间的相似度,根据用户的行为数据,找出与目标内容相似的其他内容。这种方法在内容数量相对稳定、用户数量较大的场景下表现较好。

因此协同过滤可以在完全“不理解内容”的情况下,也为用户推荐其可能想看的内容。其原理简单来说就是,找到和你兴趣相似的用户,把他们感兴趣的内容也推荐给你。

不过,要在上亿用户中满足上述需求,过程要比上图复杂很多。协同过滤进化出的“矩阵分解”(Matrix Factorization)算法,是业界最常用算法之一。其过程简单说是,基于用户行为数据,构建共现矩阵。
在这里插入图片描述

在协同过滤的过程中,用户相似度的计算是算法中最关键的一步。通过上文介绍可知,共现矩阵中的行向量代表相应用户的用户向量。那么,计算用户A和用户B的相似度问题,就是计算用户向量A和用户向量B之间的相似度,两个向量之间常用的相似度计算方法有多种,下面介绍其中一种。

余弦相似度,如下图公式所示。余弦相似度(Cosine Similarity)衡量了用户向量A和用户向量B之间的向量夹角大小。夹角越小,证明余弦相似度越大,两个用户越相似。

在这里插入图片描述

以上内容描述了协同过滤的流程。协同过滤算法通过分析用户行为数据而非内容特征,实现个性化推荐。需要说明的是,上述介绍只是非常精简的协同过滤推荐算法的描述,具体的细节在不同场景中可能有差异。

推荐算法升级:神经网络激发深度学习能力

随着微软的Deep Crossing,谷歌的Wide&Deep,以及FNN、PNN等一大批优秀的深度学习推荐模型在 2016 年被提出,推荐系统全面进入深度学习时代。[3]

时至今日,深度学习推荐模型已经成为推荐领域当之无愧的主流。行业以多层感知机器(Multi-Layer Perceptron,MLP)为核心,通过改变神经网络的结构,构建特点各异的深度学习推荐模型。在进入深度学习时代之后,推荐模型主要在以下两方面取得了重大进展。

(1)与传统的机器学习模型相比,深度学习模型的表达能力更强,能够挖掘出更多数据中潜藏的模式。

(2)深度学习的模型结构非常灵活,能够根据业务场景和数据特点,灵活调整模型结构,使模型与应用场景完美契合。

从技术角度讲,深度学习推荐模型大量借鉴并融合了深度学习在图像、语音及自然语言处理方向的成果,在模型结构上进行了快速的演化。

深度学习&神经网络原理介绍

深度学习的基础依然是机器学习。机器学习是人工智能的一个分支,核心目标是使用数据和算法使人工智能能够模仿人类的学习方式,并逐渐提高准确性。

在推荐算法应用领域,机器学习的核心目标是学习模仿人类点击某种内容的行为。其常见的过程大致可以简化如下:

  • 准备训练集数据;
  • 将训练集中的数据输入模型进行训练;
  • 将模型输出数据与训练集的目标数据进行对比;
  • 通过不断调整参数使得二者不断接近(数学称为拟合)。

这个过程,从表面看和老师教授学生新知识类似:在训练集(相当于老师)的指导下,通过大量的数据输入(相当于练习题),对比目标不断调整模型参数(改错),使得模型输出结果尽量准确,这个过程就是机器学习。

近几年,机器学习的能力越来越强,这得益于深度学习的发展。深度学习是机器学习的高级形态,其核心特点是以人工神经网络为架构。

人工神经网络(Artificial Neural Network,即ANN)是模仿生物大脑内神经网络的结构和功能设计的计算模型,由大量的节点(类似生物大脑的神经元)之间相互连接构成。

人工神经网络可以分成三个主要部分:输入层、隐藏层、输出层。输入层能够对外界的信息进行处理和分类,然后将结果传递给下一层;隐藏层可能包含一层或多层,能够对输入层或者其他隐藏层传递来的信息进行处理,并将信息传递给输出层或下一个隐藏层;输出层对输入进来的信息进行最终分类判断,并输出结果。深度学习中的“深度”,指的就是在神经网络中使用“多层”,通常情况下,层数越多,算法的能力越强。

在这里插入图片描述

在深度学习中,现实世界的所有事物都可以被转化为向量,模型的输入和目标首先被向量化,再进行各种复杂运算。在此用“破案抓小偷”的类比,来介绍神经网络的基本原理:

  • 输入层:小区保安(输入特征)

小区门口的保安负责登记来访人员信息,例如戴黑帽子、穿红衣服、背双肩包(像素级基础特征)。登记完成后,他把这些信息写成小纸条,传给下一层侦探。

  • 中间隐藏层:多组侦探(加工分析特征)

第一组侦探:看小纸条拼拼图,发现“黑帽子+红衣服”常出现在便利店盗窃案;

第二组侦探:查历史档案,发现“双肩包+上午8点”对应小区快递被偷案;

第三组侦探:画嫌疑人画像,综合“黑帽子、红衣服、双肩包+多次出现在案发地”,锁定惯犯特征;

  • 输出层:警长拍板(输出计算结果)

警长拿到综合报告,对比数据库后大喊:“这是上周连环盗窃案的A!”(输出计算结果)

  • 训练过程:

一开始侦探们总认错人,队长会复盘:“上次把戴黑帽子的外卖员当成小偷,是因为没考虑时间特征!”。于是调整“时间权重”,下次侦探优先检查“黑帽子+非工作时间”的人。如此反复训练后,侦探队成了抓小偷专家。

以上为简化案例,实际模型的复杂度远高于此。但其底层原理大体类似,都是将现实问题转化为纯粹的数学问题。从理论上来说,只要有足够大量的数据对深度神经网络进行训练,它就能用来模拟任意类型的函数,解决各种类型的问题。

抖音Wide&Deep模型

抖音在2016年上线,恰逢推荐算法开始进入深度学习时代,我们所应用的推荐算法也是深度学习算法的一种。接下来我们以至今依然是抖音推荐算法主力模型之一的Wide&Deep模型为例进行介绍。

在这里插入图片描述

Wide&Deep模型的主要思路正如其名,是由单层的 Wide部分和多层的 Deep部分组成的混合模型。其中,Wide部分的主要作用是让模型具有较强的“记忆能力”(memorization),“记忆能力”可以被理解为模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力;Deep部分的主要作用是让模型具有“泛化能力”(generalization),“泛化能力”可以被理解为模型传递特征的相关性,以及发掘稀疏甚至从未出现过的稀有特征与最终标签相关性的能力。

其具体模型结构如下图:Wide&Deep模型把单输入层的Wide部分与由Embedding层和多隐层组成的Deep部分连接起来,一起输入最终的输出层。Deep部分进行深层的特征交叉,挖掘藏在特征背后的数据模式;而单层的Wide部分善于处理大量稀疏的特征,使得数据稀少的用户或者物品也能获得有数据支撑的推荐得分,从而提高泛化能力。

Wide&Deep模型的这一结构特征,可以解决前文提到的协同过滤算法的短板。协同过滤算法优点突出,但是其局限性也很明显,就是泛化能力差,推荐的结果头部效应比较明显。也就是容易造成信息单一问题。

抖音双塔召回模型

一条视频从海量信息中被选中,推送给用户,一般要经过进入内容池、召回、排序三个环节。用户发布的新视频首先要经过初步评估进入内容池,然后进入召回环节,其作用是从海量的内容池中,初步快速粗筛出一大批用户可能感兴趣的内容。

举例来说,召回环节需要用到召回模型,抖音最常用的召回模型是“双塔召回模型”(Two-Tower Retrieval Model)。双塔召回模型把用户和内容都转化为数学空间里的一个个点,就像是给用户和内容贴上了独特的“数字标签”,这个过程叫做向量化表征学习。其大概过程如下:

(1)分别将用户特征、内容特征进行数学转化(如展示小猫的视频为0,展示小狗的视频为1,短视频为0,长视频为1,那么一个展示小猫的长视频即(0,1),其实际长度取决于特征有多少维度,用户特征同理);

(2)将转化后的数学特征输入到用户塔、内容塔两个深度学习模型中,经过训练,各自形成一组新的数字集合,这叫做用户表征和内容表征。在这一步,原本各自代表一个现实特征的数字不再具备任何实际语义,两个模型会把用户特征和内容特征都转化为没有现实意义的数字代码——因此,算法不用理解现实语义,只需处理纯粹的数学符号;

(3)将两组形式为纯粹的数字集合的用户表征和内容表征,放入同一个向量空间中,每一组数字集合便在向量空间中拥有了一组专属的向量值,好比一组独有的“数字指纹”;

在这里插入图片描述

(4)将训练过的所有内容表征的向量值和当前用户表征的向量值的距离进行对比,距离越接近代表用户越喜欢。当你的“数字指纹”和某个视频的“数字指纹”在坐标系里刚好比较“匹配”(距离近),算法就会推荐它。

unsetunset用户行为背后的推荐逻辑unsetunset

https://95152.douyin.com/article/15381

基于机器学习和深度学习构建的推荐算法,提升了超大规模信息分发、推荐的效率,能交付人类难以快速高效完成的任务。但由于算法是通过数据收集、特征工程、模型训练等复杂流程预测用户的行为,其本质是数学模型的运算过程,只是在建立用户行为与内容特征之间的数学统计关联,而非理解内容本身。因此相比人类,算法依然有其局限性。

在这里插入图片描述

推荐只预估行为动作

当用户打开抖音时,抖音的推荐算法会给候选视频打分,并把得分最高的视频推送给用户。

用户在观看时可以对看到的视频做出各种互动,这些互动体现了用户对这个视频的感兴趣程度。比如用户点赞比不点赞要好,看完比没看完要好,没有点不喜欢比点不喜欢好。在这里,“看完了”就是一次反馈动作,“点赞”也是一次反馈动作。

用户对观看的视频的每一次反馈,都有正面或者负面的价值。抖音的推荐排序模型学习的也就是这种行为反馈,推荐系统的目标就是把反馈价值最高的视频推给用户。

抖音推荐算法的核心逻辑可以简化为**“推荐优先级公式”:综合预测用户行为概率 × 行为价值权重 = 视频推荐优先级**。公式展开为:

在这里插入图片描述

抖音推荐预估动作率的具体步骤

算法学习:用户反馈行为输入

算法模型是预测用户各种互动和反馈行为发生的概率。发生概率是模型输出的结果,但在此之前,需要输入大量数据,这些模型的数据叫特征。

模型需要内容和用户两端的数据做输入,其中主要是学习用户行为数据。抖音算法学习用户行为数据,既有实时的新数据,也很重视对用户历史行为数据的学习。下图为相关模型。

概率模型预测:抖音推荐算法都预估用户哪些行为

推荐算法会通过算法模型预测用户对候选视频的行为概率(动作率)。结合用户行为和视频本身的价值权重,推算出视频推荐的价值分数,并将综合得出的价值最高的视频推送给用户。
在这里插入图片描述

在这个过程中,推荐算法会对用户的一系列行为预估,这些行为包括点赞、关注、收藏、分享、不喜欢、是否点击作者头像、评论区停留时长、长期消费等等。

价值模型评估:定义行为的“推荐价值”

价值模型,代表了抖音对于哪些动作可能更重要的理解。简单来说,如果仅考虑用户交互概率,可能会造成一些问题,比如,一些精心制作的中长优质视频,可能因为完播率较低,而在分发中处于劣势地位。

因此,抖音的价值模型希望实现内容、用户、作者以及平台的多方价值共赢。通过价值模型,对用户的互动行为进行价值计算,并通过不断调整参数,对各类价值进行加权。

然后,按“价值最大化”原则计算出候选内容的分数。在这个原则的指导下,算法会综合考虑多个因素来评估候选内容的价值。它不仅会关注内容本身的特点,还会考虑作者的收益以及平台生态等因素。

通过对这些因素的深入分析和权衡,算法能够为每个候选内容计算出反映其潜在价值的分数,从而为后续的推荐提供有力的依据。

动态调整:价值权重的即时反馈

随着算法的进步,从行为发生到现实有效反馈的时间已经非常短,这种近似即时调整的机制,有助于算法更精准地预判用户行为。抖音已经实现了“分钟级”实时反馈更新。

人工为算法建立内容秩序

不管推荐算法如何复杂,其工作的核心都是学习用户产生的行为反馈数据,并通过概率计算,将模型中推荐价值最高的视频推送给用户。

算法不必理解晚霞为何令人驻足,只需计算用户停留在火烧云视频的时长与分享概率;算法无需参透幽默的本质,却能精准拟合一串“哈哈哈哈”的评论与众人内心欢喜的相互关系。算法始终在用数学的纯粹性,尝试复刻人类选择的不确定性。

也正是因为这个特性,若单纯依靠算法预判行为而不加约束,可能会带来不当内容泛滥等新问题。因此,对于不懂内容的算法,还需要为其构筑多层“护栏”,避免算法对内容价值的“认知盲区”引发的问题。

unsetunset抖音算法的多目标平衡unsetunset

https://95152.douyin.com/article/15383

推荐算法通过各种“目标”来预估用户行为,为用户推荐内容。但用户的行为动作有很多,不同行为的重要程度会决定算法推荐的优先级。因此,为推荐算法设置合理的目标格外重要。

在这里插入图片描述

推荐算法在诞生之初只关注单一或者少量的目标,比如完播、点赞,但随着平台内容和各方需求日益多元化,单一目标已难以满足实际需求,多目标推荐系统成为主流。

什么是多目标推荐系统

多目标推荐系统,核心在于同时建模和优化多种不同的目标函数、以构建更全面平衡的推荐策略。多目标反映了用户、平台或创作者的多样化需求。

通过提升用户体验,让用户喜欢使用产品,是所有推荐系统的天然目标。推荐算法在诞生之初,大多是服务这个目标,比如预测用户观看完内容(即完播率)、点赞的概率。早期的抖音以15秒短视频为主,在这一阶段中,完播率是推荐算法的核心目标之一,这背后的逻辑是,完播率越高则意味着越多用户喜欢这条视频。

随着抖音的用户愈发多样化,内容风格也日益多元,例如平台上有了越来越多的优质中长视频,完播率等少数目标已经无法满足更多样的需求。因此,通过多目标建模,成为技术上的自然选择。

经过长期发展,抖音已经发展出非常复杂的多目标体系,有效优化了对内容的价值评估。

基于多目标建模,抖音对所有准备推荐给用户的视频进行打分,其公式可以简化为:

在这里插入图片描述

由此可以看出,一个视频是否被推出,取决于多种因素。每种因素背后都有着多个目标导向的考量。

多目标如何平衡多样需求

在实践中,抖音通过将多目标融入各种业务场景,让推荐更加均衡。以下为部分案例:

  • 探索用户深层需求,增强收藏等目标权重

一些显性的行为会给算法带来敏捷的反馈,但却不能反映和捕捉用户的深层需求。比如一位喜爱搞笑视频的用户可能也对物理知识感兴趣,仅凭用户对搞笑视频的点赞,传统算法无法洞察用户的其他需求,只能不断给他推送搞笑视频。如果想要真正理解用户的需求,推荐系统就需要借助更多的目标收集用户的行为动作。在调研中,抖音发现用户会将知识类型视频“收藏”起来,甚至反复观看。于是,平台尝试将收藏率纳入多目标建模的范畴,以便更好地将知识类内容推送给有潜在需求的用户。详情参见**抖音为何突出“收藏”按钮**。

  • 判断用户长期需求,增强“收藏+复访”等组合目标

从算法原理来看,推荐算法对用户的短期行为预估精确度很高,但在长期行为预估方面存在显著短板。因为用户长期行为的数据非常稀疏,收集难度大,因此长期模型的训练精准度就会下降。平台要长期发展就必须给用户提供更长久的价值,因此需要通过多目标建模的方式,弥补少量目标的短板,找到用户的长期需求点。

平台通过多个行为的组合解决这一难题。例如“收藏+复访”的组合,当用户收藏一个视频后几天内多次打开观看,这可能是一条对用户有长期价值的内容,如健身教程、做菜教程;如果收藏之后只是当晚打开看了一次,那很可能是因为白天时间不够便留到晚上继续观看,并无长期反复观看的迹象,并非用户的长期需求。

与之类似的还有“关注+追更”“打开+搜索”等组合目标。这些目标有助于预估用户的长期行为,帮助用户探索长期需求。

  • 探索多样性需求,助力破除“信息茧房”

除了探索一些显性行为无法预估的深层和长期需求,抖音还尝试通过多目标帮助用户探索可能他们自己都还没发现的潜在需求,帮助用户探索更加多样化的世界。

在抖音的目标中,有一类探索类指标,就是为了帮助用户探索上述需求。某种角度看,这类指标也可以消解公众熟知的“信息茧房”。

抖音在多目标建模中设置这类目标的原因很简单:即便是一直给用户推送他最喜欢看的一类内容,时间长了,用户也可能会看腻。产生腻烦的用户有两种选择,一种是观看概率会下降,算法会感知到这一变化并进行调整;另一种是直接离开平台,这样算法就失去了调整的机会。因此平台希望通过主动探索多样性内容,提前解决看腻和看厌的问题。关于这类目标如何引导算法消解“信息茧房”问题,详情参见**算法和用户都想打破“信息茧房”**。

  • “握手模型”目标带给作者的积极体验

收到网友反馈并与之互动,是最让创作者开心的事情之一。为此,抖音构建了“握手模型”,将用户和作者在评论区的互动增设为新的目标。

以往用户留言和作者回复留言会被视为两个独立的行为,但抖音的“握手模型”会将“用户留言并得到作者回复”视为一次对作者更为积极的互动信号。如同一次“握手”,带给人们的好感,明显高于单方面挥手打招呼一样。

更进一步说,不同的作者面对同一个留言产生的感受也是不同的。只有针对更多目标建模,才能更好地了解作者用户双方的互动情况。

  • 多目标不让中长优质视频作者“吃亏”

近年来,抖音非常注重扶持深度优质的中长视频。中长视频内容容量更大、表达空间更大,能为用户带来更多信息,如知识科普类、专业深度类内容更适合用中长视频来表达。相比来说,短视频完播率高并不代表内容更优质、用户体验更好。但是,前文提到的以“完播率”为核心的算法目标,必然会导致一些精心制作中长优质视频的作者因为完播率低,而在分发中居于劣势。

为了支持优质中长视频,抖音充分利用了多目标建模的能力。以一个视频为例:2024年,知识博主“米三汉”的一条《450分钟深度解读红楼梦》的视频获得了超过3亿播放量。尽管在完播目标上占劣势,但这条视频在分享和关注目标上占优势,在评论、时长、收藏上也有不错的表现,算法依靠分享和关注等目标为该作品找到了大量受众。

在这里插入图片描述

  • 原创性目标塑造公平创作环境

平台鼓励原创内容(详情参见**我们对原创的规则**),同时注重管控搬运、抄袭的视频,降低这类内容的曝光率与传播范围,并对违规内容采取删除措施,避免劣币驱逐良币,从而维护内容生态的健康与活力,为创作者们营造公平的创作环境。通过原创性目标,更多优质、新颖且具有独特价值的视频内容将被生产和推荐出来。

以多目标构建多元健康生态

某种角度看,平台就好像一个市场。一个朴素的道理是,好的市场不能单方面满足买家或卖家一方利益,更不能只顾自身利益,只有多方共赢,市场才能走得更远。通过多目标,抖音使得各方综合收益最大化,也实现了自身的繁荣发展。

从表面看,多目标影响的是用户行为,从深层次看,多目标也会影响平台内容生态。不同的目标就像是自然界中不同的要素(如阳光、土壤、水分),而不同的权重就是不同的环境(沙漠、雨林),不同的权重决定了不同的作者在平台产品生态中的收益。这就像沙漠的水分少,所以进化出了不怕干旱的植物;高纬度地带气温低,所以动物的体型都会相对更大一样。

例如,把关注率调高,就会涌现出更多人格化鲜明的作者;收藏率提高,知识类等有用的内容就会更多……

什么样的目标及权重能最终催生出像热带雨林一样健康繁荣的内容生态,也是抖音完善多目标过程中在持续思考的问题之一。

unsetunset平台治理为推荐算法设置“护栏”unsetunset

https://95152.douyin.com/article/15384

推荐算法工作的核心是学习用户产生的行为反馈数据,预测用户的下一个行为的“发生率”,从而选择将什么内容/物品推荐出去。因为推荐算法不理解内容语义,只能预估用户行为,它不可避免地会存在一定的缺陷。举例来说,如果不加干预,一些更高点击的博眼球、博流量的内容,有可能带来更高的行为预测得分。因此,算法必须要由平台治理对其进行约束和规范。

面对海量信息,内容平台不可能交由推荐算法“放任自流”,而必须通过人工参与的平台治理为算法设置“护栏”,平台通过人工参与治理和审核,定义和识别各类风险内容,让内容分发符合法律法规和各类社会规范。

为此,抖音在实践中搭建了一套业内领先的“人工参与+机器学习”相结合的内容治理体系,并结合内外部反馈持续对其进行优化与升级,以确保算法推送的内容合法合规。本文即将展开介绍的就是抖音的平台治理体系如何为推荐算法设置“护栏”。

值得一提的是,推荐算法的底层是使用机器学习去预判用户的行为反馈,而机器学习算法在内容治理上也存在广泛的应用,比如用机器学习和神经网络模型去抓取疑似存在问题的违规行为,由机器自动将违规内容抓取出来。

抖音如何为内容制定治理标准

平台治理的第一步是定义违规内容,设定标准。

依据相关法律法规,结合平台实践及各方建议,抖音目前通过以下五个方面,为制定健全、完善的治理标准提供支撑。

1、建立专门的标准管理团队

为确保治理标准体系系统、清晰,保障其具有可执行性,抖音组建了专门的团队,负责对治理标准进行准入及准出的管理工作,综合研判以确保标准符合治理目标。

2、全面覆盖各类风险问题

目前,标准管理团队已对违法违规、色情低俗、公序良俗、危险行为等十余大类、数百种风险设置了独立标准条款,每条标准条款都匹配典型违规案例及对应执行手册。另外,针对抖音上不同的内容体裁(如视频、图片、文字等)及不同的产品场景(如用户昵称、评论、话题等)的特性,也制定了对应的标准。

3、标准及时迭代和评估

根据法律法规调整、社会热点变化以及外部意见建议,标准管理团队对标准进行更新和迭代,并设定产品化的线上流程和审批机制,确保所有标准的变更与管理有留存、可追溯。常规情形下团队定期进行评估和更新,遇到突发风险时启动标准快速上线与下发流程,以确保风险问题快速被识别。

4、标准落地质量追踪和纠偏

在标准团队内部设置专门的质量管理组,评估和追踪标准执行的质量;同时,设置专业的标准培训组,定期做好执行团队的纠偏。

5、对用户和作者开展治理标准普及

抖音也对外公开了治理标准,参见抖音社区自律公约。抖音在App和PC端都设立了专门的规则中心,用户可自行查阅标准公约。同时,对于违规用户,平台会通过站内信等方式告知用户其存在的违规行为。

在这里插入图片描述

抖音平台治理的流程

平台治理的第二步是针对标准中定义出的问题,针对性地将有问题的内容识别出来,并进行处置。

抖音的平台治理存在于内容发布与传播的每一个环节。一方面,内容的传播与治理紧密关联,一条内容传播的次数越多,其需要经历的审核次数也越多;另一方面,治理链路包括感知、识别、判定、处置、体验等多个步骤,且不断从头到尾,从尾到头,实现循环与升级。

在明确了治理标准后,抖音的平台治理链路核心有两个原则。

原则一:所有在平台发布的内容都会经过评估:流量越高的内容经过评估的次数越多,标准也越严格。

具体而言,这套内容分发和治理体系,需要解决三个层次的问题。

第一层在内容发布前或最初阶段,需要从严处置存在违法违规等底线问题的内容;第二层针对已在平台产生一定传播量级的内容,复审该内容继续传播是否会引发广大用户不适甚至反感;第三层主要针对潜在高热内容,努力将流量提供给原创、优质的内容。

其具体流程如下:

1、初审

创作者将内容上传至抖音平台后,均会进入初审识别环节,如果被识别出含有高危特征,内容将被直接拦截;如果未直接命中高危特征但模型判断其大概率有底线问题,则会将其送至人工审核,由专业人员按初审标准进行研判;而未直接命中高危特征且模型判断其有问题的概率较低的内容,则将获得基础流量并进入下一个环节。

初审环节的核心是识别内容是否存在底线风险。经过数年的积累,抖音仅仅在机器审核环节已拥有上百种模型,具有代表性的如血腥模型、自残模型等。

2、复审

通过初审的内容,视频会继续被推荐分发,待视频达到一定播放量级阈值(阈值为波动状态)后,平台会对其召回进行复审。“人工+机器”会按照复审标准进行判断,如果命中问题内容标准,则对视频停止分发;如果不命中相关标准,则视频继续由推荐算法进行新一轮自然推荐分发。

复审环节的重点判断是内容是否存在不宜过多分发的非底线问题,如画面引人不适等。

3、三审

如果视频通过复审后播放量持续增高,待视频达到更高播放量级阈值(阈值为波动状态)后,平台会第三次召回视频,进行三审研判。其审核逻辑与复审类似,但标准要求更严更高。

通过以上三个环节,部分视频会达到较高热度的播放量级阈值(阈值为波动状态),这时会由运营人员介入,对视频的质量进行综合研判,判定其是否适合继续分发传播。

需要说明的是,具体的传播与治理链路中,一条视频可能触发的治理研判节点可能会更多,平台治理并非仅仅根据播放量的增长而循序进入上述三个步骤。视频被举报、评论区出现集中质疑、不合常理的流量激增等信号均有可能触发“人工+机器”的审核,而在任一环节,被处置后的内容,基本都会立即停止进一步的推荐和分发。

原则二:“人工+机器”审核相互分工又密切配合。

上面提及的是“人工+机器”进行平台治理的大致流程和节奏,而在具体治理过程中,“人工”和“机器”承担的角色也会各有侧重。

**1、“机器”主要负责“宽度”,主动对所有投稿进行评估。**抖音平台每天有用户发布海量信息,为了不让违法违规和不良信息传播,平台依靠多维度的模型技术检测、拦截和过滤问题内容、违规账号。机器学习算法在各行各业都有应用,除了推荐算法,内容识别算法也让海量内容的审核识别变成了可能,关于机器学习算法在问题内容识别的具体应用,我们后续也将会持续展开介绍。

2、“人工”主要负责“深度”,确保疑难问题尽可能精准研判,减少错判。“算法”不懂内容,需要依靠人工团队识别研判问题。特别是对于流量大、热度高的内容更需要多人协同工作,从多层次、多视角、多维度确保治理效果。

3、“人工”持续校准和升级“机器”,这一点,下文会详细说明。

上述两大原则下的内容治理流程,总体上构成了抖音针对普遍性问题的治理框架。

坦白说,平台治理要时刻面对海量的内容,任何一个环节都需要充分考虑传播和治理的效率与精准度,不可避免存在机器漏审,人工判定尺度不一导致的违规内容漏放,误判误伤等问题,导致损害了用户体验。因此,抖音也建立了异常数据预警、判定结果二次确认等机制,以便及时、灵活应对这些问题,达到平台治理、用户体验的多角度平衡。

抖音如何治理专项风险

抖音一方面建设了通用问题治理标准及流程,用于系统性治理平台上可能出现的普遍性风险内容,另一方面针对社会普遍关心的、呈现聚集特征的、反复出现的、对用户造成较多困扰的焦点问题,成立了数个专项治理团队,分别设置相应的治理标准、识别策略、处置手段和风险巡查能力,专注应对涉及特殊群体、网络暴力、AIGC技术滥用等问题治理。

以治理“网络暴力”专项为例。网络暴力备受社会关注且影响恶劣,治理面临以下难题:“施暴者”“受害者”“旁观者”等角色难以区分;场景广泛,涵盖短视频、直播间、评论区、账号主页等;传播方面,具有突发性、密集性和破坏性等特征;此外,还存在概念难界定、时效难保证、单个平台难以根治等问题。

针对上述问题,平台成立了专门治理网暴的团队,以“防护、打击、教育”为关键词,通过主动识别潜在网暴受害者并推送预警、分级干预风险账号、设置防网暴专区提供工具进行防护;通过重点打击侮辱威胁、煽动围攻及侵犯隐私三类施暴者,结合AI与人工治理持续打击;通过发布治理规范、发起反网暴倡议及案例宣传提升公众关于网暴的认知。另外,针对重点场景和人群,建设相关产品能力,为受害者提供心理关怀、法律咨询援助等帮助。

抖音平台治理的敏捷进化

治理往往是针对已有问题进行回溯性处置,由于平台新内容不断涌现,因此对于一些新问题的治理难免存在天然的滞后性,这就要求治理体系不断优化、升级和迭代。

抖音平台治理迭代的核心方法是“问题及时发现+全链路敏捷响应”。

**第一,构建多渠道的问题信号发现网络。**抖音通过多个渠道加强对新问题的发现能力,构建起多维度的问题发现网络,包括人工发现+机器发掘+用户反馈等。例如,机器会通过类似内容的异常聚集涌现,识别出部分新问题;通过广大用户的投诉反馈,也可将新问题及时纳入治理范围。

**第二,治理全链路的敏捷迭代。**在问题点明确后,相关团队会快速对治理全链路进行整体诊断,弥补治理链路在同类问题上的短板,如进行标准动态校准、识别能力迭代、处置策略更新、效果反馈校验等。整个过程跟随新问题的出现随时进行动态同步、高速响应,确保全链路敏捷迭代,响应突发治理需求。

需要强调的是,在进行治理能力升级之前,治理体系还会对存量问题进行全面回扫,避免能力迭代后存在存量盲区,并为能力迭代提供更多数据支持。而在能力升级完成后,便会正式从新问题的突发式应对,转向常态式治理。

正是通过平台治理体系,抖音为推荐算法设置了护栏,让海量内容符合各类法律法规、社会道德规范和价值观的要求。

内容概要:本文由《未来产业新赛道研究报告》整理而成,涵盖了未来产业在全球范围内的发展态势和竞争形势。报告指出,引领型国家通过全方位体制机制创新,在先进制造、人工智能、量子科技、新一代通信等领域建立了全面领先优势。文中引用了麦肯锡和GVR的数据,预测了人工智能和人形机器人等未来产业的巨经济潜力。报告还详细介绍了国外和国内对未来产业赛道的重点布局,如量子科技、人工智能、先进网络和通信技术、氢能与储能、生物技术等。此外,报告列举了中国重点省市如北京、上海等的具体发展方向,以及知名研究机构对未来产业热点的分析。最后,报告提出了构建我国未来产业重点赛道目录的建议,包括通用人工智能、高级别自动驾驶、商业航天、人形机器人、新型储能、低空经济、清洁氢、算力芯片、细胞与基因治疗和元宇宙等十重点赛道。 适用人群:对科技趋势和未来产业发展感兴趣的政策制定者、投资者、企业家和研究人员。 使用场景及目标:①帮助政策制定者了解全球未来产业发展动态,为政策制定提供参考;②为企业提供未来产业布局的方向和重点领域;③为投资者提供投资决策依据,识别未来的投资机会;④为研究人员提供未来科技发展趋势的全景图。 其他说明:报告强调了未来产业在全球经济中的重要性,指出了中国在未来产业布局中的战略定位和发展路径。同时,报告呼吁加强国家顶层设计和行业系统谋划,探索建立未来产业技术预见机制,深化央地联动,推动未来产业高质量发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值