从信息论的角度看微博推荐算法

科技之歌

于 2024-07-25 08:44:07 发布

阅读量1.6k

点赞数 23

分类专栏：随笔分享文章标签：推荐算法算法机器学习

本文链接：https://blog.csdn.net/kunpengtingting/article/details/140679182

版权

随笔分享专栏收录该内容

36 篇文章

订阅专栏

引言

在数字时代，推荐系统已成为社交媒体和其他在线服务平台的核心组成部分。它们通过分析用户行为和偏好，为用户提供个性化的内容，从而提高用户满意度和平台的参与度。推荐系统不仅能够增强用户体验，还能显著提升广告投放的效率和效果。随着技术的不断进步，信息论在推荐系统中的新兴应用逐渐显现，为推荐算法的优化提供了新的视角。
信息论是一门研究信息处理、存储、传输和通信的数学理论。其核心概念如熵、互信息和信道容量，为量化信息的不确定性、相关性和传输速率提供了理论基础。近年来，信息论在推荐系统中的应用逐渐增多，特别是在处理大规模数据和提高推荐质量方面显示出其独特的优势。

微博作为中国领先的社交媒体平台，拥有庞大的用户群体和丰富的内容生态。其推荐系统面临着诸多挑战，包括如何从海量内容中筛选出用户感兴趣的信息，如何在实时性要求下快速响应用户需求，以及如何在不断变化的用户行为中保持推荐效果的稳定性。本文将从信息论的角度探讨微博推荐算法实践，分析其在推荐系统中的具体应用和效果。

第一部分：信息论简介及在推荐系统中的应用

信息论简介

香农在其开创性著作《通信的数学理论》中首次提出了信息论。信息论的核心在于量化信息的不确定性和相关性。熵（Entropy）是衡量信息不确定性的度量，互信息（Mutual Information）则衡量两个信息源之间的相互依赖性，而信道容量（Channel Capacity）则描述了在特定信道下可以传输的最大信息量。当然，以下是信息论中几个核心概念的计算公式：

1. 信息熵（Entropy）

信息熵是衡量信息不确定性的度量。对于一个离散随机变量 $(X)$ ，其概率分布为 $(P (X))$ ，信息熵 $(H (X))$ 可以计算如下：
$-\sum_{i} P(x_i) \log_2 P(x_i)$
其中， $P(x_i) )$ 是随机变量 $(X)$ 取第 $(i)$ 个值的概率， $log_2 )$ 表示以2为底的对数。

2. 信道容量（Channel Capacity）

信道容量是衡量信道传输信息的最大速率的度量。对于一个离散无记忆信道，其信道容量 $(C)$ 可以计算如下：
$C = \max_{P(X)} I(X;Y)$
其中， $(I (X; Y))$ 是随机变量 $(X)$ 和 $(Y)$ 之间的互信息， $(P (X))$ 是信道输入的概率分布。

3. 互信息（Mutual Information）

互信息是衡量两个随机变量之间共享信息量的度量。对于两个离散随机变量 $(X)$ 和 $(Y)$ ，其互信息 $(I (X; Y))$ 可以计算如下：
$\sum_{i} \sum_{j} P(x_i, y_j) \log_2 \left(\frac{P(x_i, y_j)}{P(x_i) P(y_j)}\right)$
其中， $P(x_i, y_j) )$ 是随机变量 $(X)$ 取第 $(i)$ 个值且 $(Y)$ 取第 $(j)$ 个值的联合概率， $P(x_i) )$ 和 $P(y_j) )$ 分别是 $(X)$ 和 $(Y)$ 的边缘概率。

4. 连续随机变量的熵和互信息

对于连续随机变量，熵和互信息的计算需要使用积分而不是求和。例如：

连续随机变量的熵：
$-\int p(x) \log_2 p(x) , dx$ 其中， $(p (x))$ 是随机变量 $(X)$ 的概率密度函数。
连续随机变量的互信息：
$\int \int p(x, y) \log_2 \left(\frac{p(x, y)}{p(x) p(y)}\right) , dx , dy$ 其中， $(p (x, y))$ 是随机变量 $(X)$ 和 $(Y)$ 的联合概率密度函数， $(p (x))$ 和 $(p (y))$ 分别是 $(X)$ 和 $(Y)$ 的边缘概率密度函数。

这些公式为信息论在推荐系统和其他应用中提供了理论基础，帮助我们量化和优化信息的传输和处理。

第二部分：微博推荐算法的全链路信息论实践

提升召回的信息利用率

在召回阶段，FM模型被广泛应用于提升召回率。FM模型通过学习用户和物品之间的隐含特征，能够更准确地预测用户的兴趣。通过让召回和后续的排序在目标上更加一致，可以减少召回和排序的内耗，从而提高整体的推荐效果。

MIE（多兴趣建模）模型则通过输出多个EMBEDDING来增加信息含量。这种方法能够直接从用户的行为序列中捕捉到长短兴趣信息，减少信息损耗。例如，在某些图片推荐业务中，通过深度序列召回算法的应用，能够显著提升点击率、互动率和关注率。

提升排序的信息利用率

在排序阶段，门控网络如SENET的FIBINET被用于减少噪音内耗。

FIBINET通过引入特征重要性网络结构，能够更有效地利用特征信息，提高排序的准确性。SENet模块或其改进变体在许多互联网公司的线上推荐或广告系统中取得了显著的效果。

MASKNET则是Twitter也在使用的精排算法。它通过特征遮盖网络，能够在特征的Embedding逐步放大时，克服过拟合问题，稳定提高推荐效果。MASKNET的细粒度特征遮盖在Criteo公开数据集中表现优异，效果位居前列。

统一TRANSFORMER模型则是微博推荐算法中的一次尝试。通过统一Embedding，将所有特征视为观察序列，可以更有效地处理不同类型和长度的特征。统一Embedding后的Transformer输出与MLP（多层感知器）结合，能够预测数值结果。对于UID特征，尝试长短两种尺度的Embedding融合，能够解决低频ID的合理初始化问题。
通过这些方法，微博推荐算法在信息论的指导下，不断优化其推荐效果，提升用户体验。在后续章节中，我们将进一步探讨多目标提升样本信息利用率、工程和数据方面的信息增量和一致性，以及信息论视角中的AGI时代推荐算法。

第三部分：多目标提升样本信息利用率

在推荐系统中，多目标优化是一种提升推荐质量的有效方法。通过同时考虑多个目标，可以更全面地理解用户的需求和行为，从而提供更精准的推荐。

Twitter的十大目标案例分析

Twitter在其推荐系统中采用了多目标优化策略，通过考虑用户的正面和负面行为，以及二阶行为目标，来提升推荐效果。以下是一些具体的目标示例：

正面目标：

is_favorited：用户点赞的概率。
is_replied：用户评论的概率。
is_retweeted：用户转发的概率。
is_shared：用户分享的概率。
is_video_playback_50：用户观看视频超过一半的概率。

负面目标：

is_negative_feedback_v2：用户对内容的负面反应概率，例如“显示较少”或屏蔽推文作者。
is_report_tweet_clicked：用户举报推文的概率。

二阶行为目标：

is_good_clicked_convo_desc_favorited_or_replied：用户点击后进入推文对话，然后进行回复或点赞的可能性。
is_good_clicked_convo_desc_v2：用户点击后进入推文对话，在那里停留至少2分钟的可能性。
is_profile_clicked_and_profile_engaged：用户打开推文作者资料并进行互动的可能性。
is_replied_reply_engaged_by_author：用户回复推文后，推文作者参与该回复的可能性。
is_tweet_detail_dwelled_15_sec：用户在推文详情页面停留超过15秒的可能性。

这些目标不仅涵盖了用户的基本互动行为，还考虑了用户在互动过程中的深度参与度，从而更全面地评估推荐内容的质量。

实际工作中的多目标应用

在实际工作中，微博推荐系统也采用了类似的多目标优化策略。通过添加更多的目标，可以更细致地分析用户的行为和偏好，从而提供更个性化的推荐。以下是一些可能的应用：

用户停留时间：通过分析用户在推荐内容上的停留时间，可以评估内容的吸引力和相关性。
用户反馈：通过收集用户的正面和负面反馈，可以调整推荐策略，减少不相关或不受欢迎的内容。
用户互动深度：通过分析用户在推荐内容中的互动深度，例如评论、转发和点赞，可以更准确地预测用户的兴趣。

通过这些多目标优化策略，微博推荐系统能够更全面地理解用户的需求，提供更精准的推荐，从而提升用户体验和平台的参与度。

第四部分：工程和数据方面的信息增量和一致性

在推荐系统的工程和数据方面，信息的有效利用和一致性是关键。以下是一些具体的实践：

工程确保信息的有效利用

大规模模型容量：随着数据量的增加，推荐系统需要处理越来越多的样本和特征。因此，模型的容量需要不断扩大，以支持万亿样本和万亿参数的能力。
实时/在线模型更新：为了跟上业务的时变性，推荐系统需要实现实时或在线更新。这不仅包括模型的更新周期从天级别提升至分钟级别，还包括特征的秒级更新。
在线超参数调整：通过在线调整超参数，可以进一步提升推荐效果。例如，通过优化超参数，可以提升用户在推荐内容上的人均时长。
深度和复杂网络支持：为了捕获样本的复杂知识，推荐系统需要支持深度和复杂的网络结构。这有助于模型更高效地理解和预测用户的行为和偏好。
正确性保障：从正确的信息中学习是推荐系统成功的关键。工程上需要从多个方面校验和尽快发现问题，确保推荐系统从高质量的数据中学习。

数据方面的信息增量和一致性

多场景多业务：推荐系统需要支持多个场景和业务。通过设计配套的场景专家和共享专家的算法网络，可以更好地处理不同场景和业务的需求。后期还可以升级专家网络为NAS学习子专家网络的组合，进一步提升推荐效果。
多模态信息的加入：为了处理更丰富的内容类型，推荐系统需要加入多模态信息，如图片和视频。这包括Embedding的加入、Embedding合方案的比较和择优选用，以及万级以上类别的聚类加入。
多种行为序列的加入：用户的行为序列是理解用户偏好的重要信息。通过加入多种行为序列，可以更全面地分析用户的行为和偏好。
样本的链路一致性：在召回、排序粗排流程中，正样本学习需要考虑下发曝光样本，而负样本则采用各阶段负样本的勾兑。正样本可以根据曝光位置加权，从而提高推荐效果。

通过这些工程和数据方面的优化，推荐系统能够更有效地利用信息，提供更精准的推荐，从而提升用户体验和平台的参与度。

第五部分：信息论视角中的AGI时代推荐算法

AGI时代的推荐算法挑战

随着人工智能技术的不断进步，我们正逐步进入人工通用智能（AGI）时代。在这个时代，推荐算法面临着前所未有的挑战和机遇。AGI不仅需要处理更复杂的任务，还需要在更广泛的应用场景中提供更精准的推荐。

Chat入口与推荐系统的结合：

Chat入口，如ChatGPT，已成为用户获取信息和进行交互的重要方式。推荐系统需要与这些Chat入口结合，利用用户的实时反馈和交互数据，提供更个性化的推荐。
这种结合不仅提高了推荐系统的响应速度和灵活性，也增加了推荐内容的多样性和丰富性。

信息的极大丰富与AIGC的生产力革命：

AIGC（人工智能生成内容）技术的发展，使得内容的生产和分发变得更加高效和个性化。推荐系统需要适应这种变化，处理更大量的内容，并从中筛选出用户感兴趣的信息。

物料的丰富与生产及时性的量变

AIGC在物料生产中的作用：

AIGC技术可以快速生成大量高质量的内容，满足用户的多样化需求。推荐系统需要能够处理这些内容，确保推荐结果的及时性和相关性。
物料的丰富性不仅提高了用户的满意度，也对推荐系统的算法和数据处理能力提出了更高的要求。

生产即分发的新逻辑：

在AGI时代，生产和分发的界限变得模糊。推荐系统需要实时处理生产的内容，并立即将其分发给用户。这种“生产即分发”的逻辑要求推荐系统具备更高的实时性和动态性。

创造即理解与水军博弈

信息生产与理解能力的同步增长：

AGI时代的推荐系统不仅要能够生产内容，还要能够理解内容。这种“创造即理解”的能力使得推荐系统能够更深入地理解用户的需求和偏好，提供更精准的推荐。
推荐系统需要不断学习和适应用户的行为和偏好，以保持推荐结果的相关性和吸引力。

面对水军和机器人的挑战：

在AGI时代，推荐系统还需要面对水军和机器人的挑战。恶意行为可能会影响推荐结果的准确性和公正性。
推荐系统需要具备更强的抗干扰能力，通过算法和策略识别和过滤恶意行为，确保推荐结果的质量和可靠性。

总结

通过本文的探讨，我们可以看到信息论在推荐系统中的广泛应用和重要性。从信息论的基础概念到其在推荐系统中的具体应用，再到微博推荐算法的全链路信息论实践，信息论为推荐系统提供了一种新的视角和方法。通过量化信息价值、降低不确定性和评估算法性能，信息论帮助推荐系统更精准地理解用户的需求和偏好，提供更个性化的推荐。
同时，多目标优化、工程和数据方面的优化也是提升推荐效果的关键。通过综合考虑多个目标、支持大规模模型、实现实时更新、加入多模态信息和保持样本链路一致性，推荐系统能够更全面地理解用户的行为和偏好，提供更精准的推荐。