在强化学习中,一个智能体(agent)通过与环境的交互来学习行动策略,以最大化期望的长期回报。
包含元素:
- 环境(Environment):智能体所处的环境,由状态(state)和奖励(reward)组成。
- 智能体(Agent):负责采取行动(action)以达到最大化回报的决策系统。
- 策略(Policy):智能体采取行动的方式,通常表示为从状态到行动的映射。
- 奖励(Reward):用于衡量智能体的行动的好坏,并且提供了一个学习信号。
- 值函数(Value Function):衡量智能体在当前状态下采取行动的长期回报,用于指导智能体的行动选择。
- 学习算法(Learning Algorithm):根据智能体与环境的交互来更新策略、值函数等参数,以优化长期回报。
K摇臂老虎机
- 探索和利用
- 探索(估计摇臂的优劣)和利用(选择当前最优摇臂)是矛盾的
- 探索-利用窘境
- 必须折中
- ε-贪心算法
- softmax算法
强化学习分类:
- 有模型学习
- 代理通过学习环境的动态模型来预测在不同行为下的未来状态和奖励
- 优点:可以更高效地规划和预测未来的行为,从而实现更优秀的策略
- 缺点:需要建立一个准确的环境模型,这在实际应用中往往是难以实现的
- 免模型学习
蒙特卡罗强化学习
- 通过模拟环境交互来进行学习,而不需要环境的先验知识
- 将每个状态的回报视为一个样本,通过对这些样本进行求平均值来估计状态值函数。这样,智能体就可以根据状态值函数来选择最优的行动
- 将每个状态的回报视为一个样本,通过对这些样本进行求平均值来估计状态值函数。这样,智能体就可以根据状态值函数来选择最优的行动
值函数近似
- 值函数近似是强化学习中常用的一种技术,它通过利用函数逼近方法,将状态值函数或动作值函数表示为参数化函数的形式,从而减少计算量,并且可以处理大规模状态空间或动作空间的问题
- 基于梯度:最小化均方误差算法,策略梯度算法
- 基于最小二乘法