强化学习
文章平均质量分 95
Every DAV inci
这个作者很懒,什么都没留下…
展开
-
RLHF-基于人类反馈的强化学习
智能体通过采取行动与环境进行交互,并返回状态和奖励。奖励我们想要优化的目标,状态只是当前时间智能体所处环境的一种表示,智能体使用策略将该状态映射到一个动作。强化学习的精妙之处在于其学习过程是开放式的,所以智能体只通过看到这些奖励信号并学习如何随着时间的推移对获取到的奖励进行优化,而不去关注奖励实际的来源如何。这样可以使得我们构建一个可以解决复杂问题的智能体,这是为什么我们选用强化学习来解决场景对话这样一个开放式问题的原因,而这也是我们开始讨论RLHF(Reinforcement Learning From原创 2023-07-11 16:26:36 · 778 阅读 · 0 评论 -
HuggingFace-RL-Unit2-Part2——初探Q-Learning
Q-Learning是一种离线策略的基于价值的方法,它使用时序差分方法来训练其动作-价值函数离线策略:我们将在本单元的最后讨论这个问题。基于价值的方法:通过训练一个价值函数或动作-价值函数来间接地找到最优策略,该函数能告诉我们每个状态或每个状态-动作对的价值。使用时序差分方法在每一步更新其动作-价值函数,而不是在回合结束时进行更新。Q-Learning是我们用来训练 Q 函数的算法,Q 函数是一个动作-价值函数,用于确定在特定状态下采取特定动作的价值。翻译 2023-06-24 18:41:01 · 530 阅读 · 0 评论 -
HuggingFace-RL-Unit2-Part1——Q-learning算法介绍
在强化学习中,我们构建一个能做智能决策的智能体。例如,一个学习玩电子游戏的智能体,或一个能够通过决定商品的购入种类和售出时间从而最大化收益的贸易智能体。但是为了做出比较聪明的决策,我们的智能体需要通过反复试验与环境交互并接受奖励(正向或负向)作为唯一反馈,以此进行学习。智能体的目标是最大化累计期望奖励(基于奖励假设)智能体的决策过程称作策略π:给定一个状态,一个策略将输出一个动作或一个动作的概率分布。也就是说,给定一个环境的观察,策略将会输出一个行动(或每一个动作的概率),智能体将会执行该动作。翻译 2023-06-24 18:30:41 · 264 阅读 · 0 评论 -
强化学习和推荐系统的结合应用
此外,推荐系统往往利用日志文件进行学习,日志文件纪录的可能是其它版本的用户行为,这个过程对应强化学习中off-policy的设定。本文的创新点之一是考虑到了推荐时商品之间的2D位置关系,Actor输出的action中同时包括了每个商品的2D位置信息。可解释性的推荐系统指的是系统在生成推荐列表的同时,针对每一个推荐商品,生成推荐的理由。具体而言,可解释性的实现是通过先建立用户和商品之间的知识图谱,再将推荐行为建模成路径搜索问题,路径经过的节点即是推荐逻辑链的组成部分。2、通过与用户的自然交互,推荐系统。...原创 2022-08-15 15:35:47 · 1644 阅读 · 0 评论