AI时代，字节跳动的推荐系统还会最强吗？——字节最新重磅论文《HLLM分层大模型》，开启“新千人千面”！

最新推荐文章于 2025-04-12 16:50:04 发布

小马不会过河

最新推荐文章于 2025-04-12 16:50:04 发布

阅读量3.6k

点赞数 26

文章标签：人工智能深度学习机器学习区块链大数据

本文链接：https://blog.csdn.net/m0_59163425/article/details/142643411

版权

‍《HLLM：通过分层大型语言模型增强序列推荐以进行项目和用户建模》——论文作者全部来自ByteDance

「基于算法的信息分发」是字节跳动在互联网时代的一大突破。

关于字节和旗下的抖音、TikTok、今日头条等，「推荐算法」一直是绕不开的主题，甚至被认为是相较于腾讯、快手等竞争制胜的法宝之一。

今天，对于大模型和算力的投入，也为字节争取到了AI时代新的船票……豆包、扣子等产品的海外流量持续增长，Gauth等也有突围的势头。

随着AI底层技术的演进，内容创作、产品制作的门槛不断降低，生产和供给持续增加，基于大模型的“新推荐系统”也呼之欲出。

AI和推荐系统，在抖音、TikTok上，却是首先实现了交汇——

字节跳动研究团队，在9月19日新发表了一篇关于「大模型提升推荐系统效果」的论文，今天为大家详细介绍一下。

1. 信息、推荐、Scaling Law

文字、图片、音频、视频、代码……这五大类信息载体，在生产端都已经被AI逐一改造

那么，从生产端再往前一步，一定需要一个更强势的、更有效率的「推荐分发机制」。因为只有分发到位，才会激发更多的供给生产……

而这些，即将带动新的数据飞轮：AI时代基于Scaling Law的规模效应、网络效应也会涌现，生产关系也将随之变化。

我们今天看到的AI生成端的问题，比如内容粗糙、鱼龙混杂、伦理道德等等，也将被LLM驱动的新的分发和推荐解决——

用更好的模型，去评估、挑选、推荐“模型自己制造的内容”，进而为用户带来信息极大丰富后新一轮更好的体验——这是Google、Meta、Perplexity等正在研究的课题。

我非常开心，看到字节跳动在这个领域，也往前迈了一大步。

[

2. 分层大语言模型 (HLLM)

字节这篇AI论文发表于三天前，基本代表了底层研究的最新进展；不论从LLM的角度评判，还是以推荐系统的视角来审视，都很有创新。

这篇论文，未来有可能会极大影响AI应用层的推荐逻辑、用户理解、内容呈现……不建议收藏，值得尽快食用！！！

原文的价值肯定更大，附在了文末。这里分享一下对论文要点的提炼，以及我对字节推荐策略、AI应用的感受。

论文题目叫：_HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling，_即《HLLM：通过分层大型语言模型，进行项目和用户建模，增强序列推荐效果》。

字节研究人员推出了一种名为分层大语言模型 (HLLM) 的创新模型，以提高推荐的准确性和效率。

研究者采用了一个两层模型：第一层Item LLM，从项目的详细文本描述中提取丰富的内容特征；而第二层User LLM，利用这些内容特征，根据用户的交互历史，来预测用户的未来兴趣。

基于论文原文的分层要点总结表

在字节的此项研究之前，LLM在推荐系统中的各项尝试，基本都是对“传统推荐模型”做了小幅改进。

有三个关键问题，是LLM真正深度介入推荐系统前要评估的：

1. LLM预训练权重的真正价值（通常被认为是世界知识的封装）；

2. 对推荐任务进行微调的必要性；

3. LLM是否可以在推荐系统中，表现出与其他领域相近的可扩展性优势。

对这三个问题，论文中都给出了实验和解释。

在这里插入图片描述
此图来自对TikTok推荐算法的另一项研究，下篇展开

3. 字节传统的推荐系统

推荐系统早已成为电商、信息流和广告平台上个性化服务的基础。

这些系统通过分析历史交互来预测用户偏好，从而使平台可以推荐更精准、更相关、更友好的商品或内容。

一直以来，推荐系统的准确性和有效性，很大程度上取决于用户和商品特征的「建模程度」。

多年来，用于捕捉动态和不断变化的用户兴趣的算法的开发，变得越来越复杂，尤其是在具有不同用户行为的大型数据集中。

集成更先进的模型，对于提高推荐的准确性和在实际场景中扩展其应用至关重要。

字节团队研究发现，推荐系统有一个长期问题，是如何更好地处理新用户和新项目——通常称为「冷启动场景」。

当系统需要更多数据才能进行准确预测时，就会发生这种情况，从而导致推荐不理想。

当前的方法依赖于基于 ID 的模型，通过转换为嵌入向量的唯一标识符来表示用户和项目。

虽然这种技术在数据丰富的环境中效果很好，但它在冷启动条件下会失败，因为它无法捕获更能代表用户兴趣和项目属性的复杂高维特征。

随着数据集的增长，现有模型难以保持可扩展性和效率，尤其是在需要实时预测时。

4. 与传统推荐系统方法的不同

推荐领域的传统方法（例如基于 ID 的嵌入），常常使用简单的编码技术，将用户和项目信息转换为系统可以处理的向量。

DeepFM 和 SASRec 等模型，利用这些嵌入来捕获连续的用户行为，但相对较浅的架构限制了它们的有效性。

这些方法难以独立捕获项目和用户的丰富、详细的特征，需要额外的更多细节、更高质量数据的支持——这通常会导致在应用于复杂的大规模数据集时，性能不佳。

基于嵌入的模型，一般都依赖极多的参数，这使得它们计算成本高昂且效率较低，尤其是在针对推荐等特定任务进行微调时。

HLLM 架构则是旨在利用大型语言模型 (LLM) 的强大功能，来增强顺序推荐系统。

论文中的两层模型图示

5. 模型一、模型二

与传统的基于 ID 的系统不同，HLLM 专注于从项目描述中提取丰富的内容特征，并利用这些特征来建模用户行为。

HLLM 由两个主要组件组成：项目LLM和用户LLM。

项目LLM：负责通过将特殊标记附加到文本数据，来从项目描述中提取详细特征。此过程将大量文本数据转换为简洁的嵌入，然后将其传递给用户 LLM。

这种两层方法，目标是利用预先训练的、更具体的 LLM（例如具有多达 70 亿个参数的 LLM），再来改进「项目特征提取」和「用户兴趣预测」。

用户 LLM：处理这些嵌入，以对用户行为进行建模并预测未来的交互。这种分层架构通过将项目和用户建模分离来降低推荐系统中通常与 LLM 相关的计算复杂性。

它可以高效处理新项目和用户，在冷启动场景中的表现，明显优于传统的基于 ID 的模型。

HLLM的运行链路

6. 效果：HLLM各项指标优于传统模型

使用两个大型数据集 PixelRec 和 Amazon Reviews，对 HLLM 模型的性能进行了严格测试，其中包含数百万次用户与商品的交互。

例如，PixelRec 的 8M 子集包含 300 万用户和超过 1900 万次用户交互。HLLM 在这些测试中实现了最佳性能，与传统模型相比有显著改进。

具体而言，HLLM 的前 5 名召回率 (R@5) 达到 6.129，与 SASRec 等基线模型相比有显著提高，后者仅为 5.142。

该模型在 A/B 在线测试中的表现令人印象深刻，展示了现实世界推荐系统的显著改进。

事实证明，HLLM 在训练方面更高效，所需的 epoch 比基于 ID 的模型更少。尽管如此，它还表现出卓越的可扩展性，随着模型参数从 10 亿增加到 70 亿，性能不断提高。

HLLM 的结果令人信服，尤其是它能够微调预训练的 LLM 以完成推荐任务。

尽管使用较少的数据进行训练，但 HLLM 在各个指标上的表现都优于传统模型。

例如，HLLM 在 PixelRec 数据集中的前 10 名 (R@10) 的召回率为 12.475，而基于 ID 的模型（如 SASRec）的召回率仅有适度改善，达到 11.010。

此外，在传统模型往往表现不佳的冷启动场景中，HLLM 表现出色，证明了其能够使用最少的数据进行有效推广。

7. 结论：全新的推荐系统正在建立

根据结果来看，HLLM 的引入代表了「推荐技术」的重大进步，解决了该领域一些最紧迫的挑战。

该模型能够通过大规模语言模型集成项目和用户建模，从而提高推荐准确性并增强可扩展性。

通过利用预先训练的知识和针对特定任务进行微调，HLLM 实现了卓越的性能，尤其是在实际应用中。

这种方法证明了 LLM 彻底改变推荐系统的潜力，提供了一种比传统方法更高效、更可扩展的解决方案。

HLLM 在实验和现实环境中的成功，表明它可能成为未来推荐系统的关键参与者，特别是在冷启动和可扩展性问题仍然存在的数据丰富的环境中。

8. 字节的未来：新千人千面时代

不知道大家看抖音的时候，有没有感觉到，推荐系统一直在“变聪明”。

在抖音上，似乎隐藏着无数的AB test：一只看不见的手抓起海量的反馈数据，编织出一张无处不在的网络。

前几年，快手的朋友跟大老板汇报时，喜欢说抖音的商业化必然影响内容质量——广告、直播、电商信息多了以后，用户体验肯定变差……然而今天似乎快手和抖音的差距并未缩小。

甚至有时候，让我感到惊讶的，不是所谓的「抖音过度商业化」，反而是「抖音的克制」。

抖音是极少数有**“使用时长提醒”**的产品，近一小时浏览后，会弹出很宁静温柔的页面，提醒人休息。（另一个是微信读书，天天夸我读书时间长）

还有一个发现：在连续观看较多同类视频后，抖音会刻意“收敛”——会岔开同样类型的选题或者情绪，去推荐其他兴趣点。就好像很怕我“吃腻”，有意鼓励我换换口味……

甚至更有时候，纯娱乐内容看多了以后，抖音居然会给我推AI干货！

总能看到AI同行、最近的AI活动、AI新闻等等……就好像抖音生怕我沉迷享乐，把我从笑哈哈的乐子里拽出来，切换成越刷AI内容越多、越看越想工作的状态。

不知不觉，怀着研究的心情，一两个小时过去了……

我一直试图“驯化算法”、破解“推荐黑盒”，然而，好像我自己才是被驯化的那一个。

我的抖音万粉测试号之一

我自己的抖音和TikTok，基本都是想看什么，通过特定动作，就能让算法给我推什么。

我知道有无数的AB Test，但我依然会或顺从或叛逆，主动做出各种动作，双手献上了自己或真或假的各项数据……

刻意的测试动作，让我收获了不止一个抖音万粉账号，也让我开始思考一些其他问题。

用户在成长，旧的内容和套路在变过时，而好的产品永远在进化。

一个产品的上限究竟有多大？为什么一个产品能不断扩展用户？多年以后为什么老用户依然会在平台上活跃？

也许，产品体验和内容体验，不仅要从「有趣」走向「满足」，最终还要能持续带来「惊喜」。而这也恰恰是推荐算法引擎的价值。

本质上，这就是信息总量的上升、匹配效率的上升，才让抖音变得更有价值。

很多时候，用户并不能准确表述自己的需求，而是要平台去帮用户主动扩展、需要推荐。

AI时代，用户也常常不知道如何提问、如何提需求、如何创造，这就不止需要推荐系统，也需更好的意图识别、高质量的问题解决。

而这一切，在AI时代，还仅仅只是个开始。

真正意义上的“千人千面”、“个性内容”、“定制化生产和推荐”，即将伴随着LLM、Agent、Recommendation Model的成熟，诞生更高情商、更丝滑的极致产品体验。

全球范围内，新一轮基于AI和推荐算法的角逐，帷幕已经拉开……

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述