对强化学习理解及其与有监督学习和无监督学习的比较

最新推荐文章于 2024-06-08 19:58:09 发布

知者智者

最新推荐文章于 2024-06-08 19:58:09 发布

阅读量3.7k

点赞数 1

分类专栏：机器学习-深度学习文章标签：强化学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lclfans1983/article/details/107826880

版权

机器学习-深度学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

机器学习可以分为有监督学习,无监督学习和强化学习.

强化学习是机器学习的一个重要分支,本文重点谈一下对于强化学习的理解.

首先,什么是强化学习? 强化学习就是学习”做什么才能使得数值化的收益信号最大化”.学习者不会被告知应该采取什么动作,而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益.试错和延迟收益是强化学习两个最重要最显著的特征.

强化学习与有监督学习不同: 有监督学习是从外部监督者提供的带标注训练集中进行学习.每一个样本都是情境和标注的描述, 而强化学习是从交互中学习.

强化学习也与无监督学习不同:无监督学习是一个典型的寻找未标注数据中隐含结构的过程, 强化学习的目标是最大化收益信号而不是找出数据的隐含结构.

强化学习系统有四个核心要素: 策略, 收益信号, 价值函数和对环境建立的模型.

1 策略定义了学习智能体在特定时间的行为方式. 一般来说, 策略可能是环境所在状态和智能体所采取的动作的随机函数.

2 收益信号定义了强化学习问题中的目标.收益信号是改变策略的主要基础.

3 价值函数表示了从长远的角度看什么是好的, 与之相对, 收益信号表明了在短时间内什么是好的.简单的说,一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望.

4对环境建立的模型是一种环境的反应模式的模拟,它允许对外部环境的行为进行推断. 对环境建立模型并不是强化学习必需的, 所以基于此可以将强化学习分为有模型的方法和无模型的方法.

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
对强化学习理解及其与有监督学习和无监督学习的比较

机器学习可以分为有监督学习,无监督学习和强化学习.强化学习是机器学习的一个重要分支,本文重点谈一下对于强化学习的理解.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。