工业界真实的推荐系统-小红书(王树森)

课程特点:系统、清晰、实用,原理和落地经验兼具
b站:https://www.bilibili.com/video/BV1HZ421U77y/?spm_id_from=333.337.search-card.all.click&vd_source=b60d8ab7e659b10ea6ea743ede0c5b48
讲义:https://github.com/wangshusen/RecommenderSystem

王树森老师的硬核课程,由于PPT很多,并且老师的很多经验是口述,没有写在PPT里,网上有一些网友的笔记,但不是很完整,学习起来也比较费事,所以我自己整理了120页的PPT(这里放的是截图),期望能比较完整地把老师的经验呈现出来,同时缩短学习时间

【1】工业界真实的推荐系统-小红书(王树森)
【2】工业界真实的推荐系统(小红书)-召回-ItemCF、Swing、UserCF
【3】工业界真实的推荐系统(小红书)-离散特征处理、矩阵补充模型、双塔模型
【4】工业界真实的推荐系统(小红书)-召回-改进双塔模型-自监督学习
【5】工业界真实的推荐系统(小红书)-小红书用到的其他召回通道、曝光过滤 & bloom filter
【6】工业界真实的推荐系统(小红书)-排序:精排(模型、特征、融分公式、数据服务)、粗排(三塔模型)
【7】工业界真实的推荐系统(小红书)-特征交叉:FM、DCN、LHUC、SENet、FiBiNet
【8】工业界真实的推荐系统(小红书)-用户行为序列建模:LastN、DIN、SIM
【9】工业界真实的推荐系统(小红书)-重排:多样性算法-MMR、DPP、结合业务规则
【10】工业界真实的推荐系统(小红书)-AB测试:分层、Holdout机制、反转实验
【11】工业界真实的推荐系统(小红书)-物品冷启动:全链路优化、流量调控(提权、保量、差异化保量)
【12】工业界真实的推荐系统(小红书)-物品冷启动的AB测试
【13】工业界真实的推荐系统(小红书)-涨指标的方法:召回、排序、多样性、特殊人群、利用交互行为

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
王树森的Q学习是一种强化学习算法,广泛应用于机器学习领域。 Q学习是通过不断迭代更新一个称为Q值的表格来实现的。这个表格记录了每个状态和动作组合的Q值,表示在某个状态下,采取某个动作所获得的预期回报。通过学习更新Q值,智能体能够学会在不同的情境下选择最优的动作。 王树森的Q学习算法主要包含以下几个步骤: 1. 初始化Q值表格,设置初始状态和动作; 2. 在每个时间步骤中,智能体观察当前状态和可用的动作,并根据一种策略(如epsilon-greedy)选择一个动作; 3. 执行所选择的动作,观察新的状态和获得的奖励; 4. 更新Q值表格,使用Q-learning更新公式:Q(s, a) = (1 - α) * Q(s, a) + α * (r + γ * max(Q(s', a'))),其中α是学习率,γ是折扣因子,r是获得的奖励,s'是新状态; 5. 重复上述步骤,直到达到指定的终止条件(如达到最大迭代次数或Q值收敛)。 王树森的Q学习算法具有以下优点: 1. 简单而高效:Q学习算法易于理解和实现,可以在很多问题上取得良好的效果; 2. 模型无关性:Q学习不需要事先了解环境的动力学模型,只需要通过与环境的交互进行学习即可; 3. 可扩展性:Q学习可以应用于离散或连续动作空间的问题。 然而,王树森的Q学习算法也存在一些限制和挑战: 1. 状态空间和动作空间的维度较高时,Q值表格会变得非常庞大,导致算法的计算和存储开销很大; 2. Q学习对环境中随机性的处理不够灵活,可能会收敛到局部最优解; 3. Q学习算法通常需要大量的训练数据和迭代次数才能获得较好的结果。 综上所述,王树森的Q学习是一种经典的强化学习算法,通过不断更新Q值表格来实现智能体的学习和决策。虽然存在一些限制,但Q学习在许多问题上取得了良好的效果,是机器学习领域中的一项重要研究内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值