(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】

系列文章传送门

(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】

该系列文章根据小红书搜推算法工程师、团队负责人王树森B站上主讲的《工业界的推荐系统》之小红书业务场景及内部实践整理而得。感谢大佬分享工业界前沿的推荐系统实战技术!

这篇文章讲解工业界推荐系统实践中对于冷启动问题的处理技巧,包括:冷启动评价指标、召回通道、聚类召回、Lookalike人群扩展、流量调控以及冷启动中的AB测试等。

评价指标

为什么要特殊对待新笔记?

  • 新笔记缺少与用户的交互,导致推荐的难度大、效果差。
  • 扶持新发布、低曝光的笔记,可以增强作者发布意愿。

冷启动优化的目标?

  • 精准推荐:克服冷启的困难,把新笔记推荐给合适的用户,不引起用户反感。
  • 激励发布:流量向低曝光新笔记倾斜,激励作者发布。
  • 挖掘高潜:通过初期小流量的试探,找到高质量的笔记,给与流量倾斜。

作者侧指标

发布渗透率(penetration rate) = 当日发布人数 / 日活人数
人均发布量 = 当日发布笔记数 / 日活人数

发布渗透率、人均发布量反映出作者的发布积极性。
冷启的重要优化目标是促进发布,增大内容池。
新笔记获得的曝光越多,首次曝光和交互出现得越 早,作者发布积极性越高。

用户侧指标

新笔记的消费指标

  • 新笔记的点击率、交互率。
    • 问题:曝光的基尼系数很大。
    • 少数头部新笔记占据了大部分的曝光。
  • 分别考察高曝光、低曝光新笔记。
    • 高曝光:比如>1000次曝光。
    • 低曝光:比如<1000次曝光。

大盘消费指标

  • 大盘的消费时长、日活、月活。
  • 大力扶持低曝光新笔记会发生什么?
    • 作者侧发布指标变好。
    • 用户侧大盘消费指标变差。

内容侧指标

高热笔记占比

  • 高热笔记:前 30 天获得 1000+ 次点击。
  • 高热笔记占比越高,说明冷启阶段挖掘优质笔记的能力越强。

简单的召回通道

召回的依据

✅ 自带图片、文字、地点。
✅ 算法或人工标注的标签。
❎ 没有用户点击、点赞等信息。
❎ 没有笔记 ID embedding。

冷启召回的困难

  • 缺少用户交互,还没学好笔记 ID embedding,导致双塔模型效果不好。
  • 缺少用户交互,导致 ItemCF 不适用。

改进后的双塔模型

改进方案 1:新笔记使用 default embedding。

  • 物品塔做 ID embedding 时,让所有新笔记共享一个 ID,而不是用自己真正的 ID。
  • Default embedding:共享的 ID 对应的 embedding 向量。
  • 到下次模型训练的时候,新笔记才有自己的 ID embedding 向量。

改进方案 2:利用相似笔记 embedding 向量。

  • 查找 top k 内容最相似的高曝笔记。
  • 把 k 个高曝笔记的 embedding 向量取平均,作为新 笔记的 embedding。

类目召回

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于类目和关键词召回的缺点?

  • 缺点1: 只对刚刚发布的新笔记有效。
    • 取回某类目/关键词下最新的 k 篇笔记。
    • 发布几小时之后,就再没有机会被召回。
  • 缺点2: 弱个性化,不够精准。

聚类召回

基本思想

  • 如果用户喜欢一篇笔记,那么他会喜欢内容相似的笔记。
  • 事先训练一个神经网络,基于笔记的类目和图文内容,把笔记映射到向量。
  • 对笔记向量做聚类,划分为 1000 cluster,记录每个 cluster 的中心方向。(k-means 聚类,用余弦相似度。)

聚类索引

  • 一篇新笔记发布之后,用神经网络把它映射到一个 特征向量。
  • 从 1000 个向量(对应 1000 个 cluster)中找到最相似的向量,作为新笔记的 cluster。
  • 索引: cluster --> 笔记ID列表(按时间倒排)

线上召回

  • 给定用户ID,找到他的 last-n 交互的笔记列表,把这些笔记作为种子笔记。
  • 把每篇种子笔记映射到向量,寻找最相似的cluster。 (知道了用户对哪些 cluster 感兴趣。)
  • 从每个 cluster 的笔记列表中,取回最新的 𝑚 篇笔 记。
  • 最多取回 𝑚𝑛 篇新笔记。

内容相似度模型

在这里插入图片描述
在这里插入图片描述

训练内容相似度模型

在这里插入图片描述
在这里插入图片描述

样本选择

<种子笔记,正样本>
方法一:人工标注二元组的相似度
方法二:算法自动选正样本

  • 筛选条件:
    • 只用高曝光笔记作为二元组(因为有充足的用户交互信息)。
    • 两篇笔记有相同的二级类目,比如都是“菜谱教程”。
  • 用 ItemCF 的物品相似度选正样本。

<种子笔记,负样本>

  • 从全体笔记中随机选出满足条件的:
    • 字数较多(神经网络提取的文本信息有效)。
    • 笔记质量高,避免图文无关。

聚类召回总结

在这里插入图片描述

下一篇继续讲解冷启动问题。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
sc7660、sc7a30e、sc7a20都是芯片型号,属于不同的集成电路。这三款芯片具有不同的内部功能和应用,下面我将分别介绍它们的内部功能和应用说明书。 首先是sc7660芯片,它是一个升压换流器芯片。它的内部功能包括输入电压调整、升压换流控制、电源输出以及电流保护等。sc7660芯片主要用于低电压电源模块的设计,可以将低电压升压为高电压,在电子设备中常用于驱动显示屏、电源适配器以及其他高压设备。 接下来是sc7a30e芯片,它是一个多功能信息处理芯片。它的内部功能包括数字信号处理、音频处理、图像处理、通信接口以及多媒体解码等。sc7a30e芯片可以广泛应用于智能手机、平板电脑、汽车多媒体系统等电子设备中,实现信号处理、音频解码、图像显示以及数据通信等多种功能。 最后是sc7a20芯片,它是一个高性能微控制器芯片。它的内部功能包括中央处理器、存储器、外设接口以及电源管理等。sc7a20芯片具有较高的计算能力和较大的存储容量,可用于各种控制系统中,例如家电控制、工业自动化、智能家居等领域。 总之,sc7660、sc7a30e、sc7a20这三款芯片分别适用于不同的应用领域,具有不同的内部功能。通过了解它们的内部功能和应用说明书,我们可以更好地理解和使用这些芯片,提高电子设备的性能和功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP_wendi

谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值