无监督学习和强化学习

最新推荐文章于 2024-01-07 02:09:58 发布

tantantan12321

最新推荐文章于 2024-01-07 02:09:58 发布

阅读量529

点赞数

文章标签：学习深度学习 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tantantan12321/article/details/129181395

版权

无监督学习：

不含有“目标”的机器学习问题通常被为无监督学习。

无监督学习回答下列问题：

环境

优点：我们可以孤立地进行模式识别，而不必分心于其他问题。

缺点：解决的问题相当有限。

强化学习

在强化学习问题中，智能体（agent）在一系列的时间步骤上与环境交互。在每个特定时间点，智能体从环境接收一些观察（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中获得奖励（reward）。此后新一轮循环开始，智能体接收后续观察，并选择后续操作，依此类推。强化学习的过程在图中进行了说明。请注意，强化学习的目标是产生一个好的策略（policy）。强化学习智能体选择的“动作”受策略控制，即一个从环境观察映射到行动的功能。

强化学习框架的通用性十分强大。例如，我们可以将任何监督学习问题转化为强化学习问题。当然，强化学习还可以解决许多监督学习无法解决的问题。

强化学习可能还必须处理部分可观测性问题。

强化学习智能体必须不断地做出选择：是应该利用当前最好的策略，还是探索新的策略空间（放弃一些短期回报来换取知识）。

当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。当状态不依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi-armed bandit problem）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
无监督学习和强化学习

无监督学习和强化学习
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。