强化学习笔记

2301_77120539

已于 2024-07-21 14:41:41 修改

阅读量194

点赞数 7

文章标签：学习笔记机器学习

于 2024-07-21 14:40:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77120539/article/details/140587551

版权

文章目录

一、什么是强化学习
二、机器学习分为监督学习、无监督学习、半监督学习，强化学习。
三、有监督学习和强化学习的区别

一、什么是强化学习

智能体在环境的一个状态下做出一个动作决策，使得环境发生改变并返回相应的奖励。

智能体有三种关键要素：感知、决策和奖励。
感知：智能体通过传感器等感知环境。
决策：智能体根据当前状态选择采取的动作。
奖励：环境给予的反馈。最大化累积奖励是智能体提升策略的目标，也是衡量策略好坏的目标。

二、机器学习分为监督学习、无监督学习、半监督学习，强化学习。

监督学习：教机器做事。分类任务：训练数据有特征和标签。通过训练，机器可以面对只有特征的数据判断标签。回归任务：训练数据有特征和对应的连续输出。
无监督学习：机器“自学”。数据只有特征而没有标签，本质是一种统计手段。
半监督学习：既有有标签数据，也有无标签数据。

强化学习和有监督学习的学习目标其实是一致的，即在某个数据分布下优化一个分数值的期望。不过，经过后面的分析我们会发现，强化学习和有监督学习的优化途径是不同的。

三、有监督学习和强化学习的区别

有监督学习有固定的训练数据集，通过优化数据集设定的目标函数（如最小化预测误差）找到最优参数。

强化学习的训练数据由智能体和环境交互得到，而非预定。即可能发生的状态动作对有多种，智能体的交互可理解成“采样”。而学习的目的在于最大化累积奖励的期望。

关注

7
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记

智能体在环境的一个状态下做出一个动作决策，使得环境发生改变并返回相应的奖励。智能体有三种关键要素：感知、决策和奖励。感知：智能体通过传感器等感知环境。决策：智能体根据当前状态选择采取的动作。奖励：环境给予的反馈。最大化累积奖励是智能体提升策略的目标，也是衡量策略好坏的目标。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。