[ML]机器学习_强化学习

IAz-

已于 2023-12-26 15:48:28 修改

阅读量357

点赞数 9

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-12-08 10:48:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iazzz/article/details/134872582

版权

机器学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

一、什么是强化学习

1、定义

强化学习是一种从环境与智能体的交互中进行学习的机器学习方法。它的主要目标是通过智能体进行实验来获得关于环境和任务的信息，最终达到最优的决策策略。

在强化学习中，人们通常将环境描述为一系列状态和动作的集合。智能体的任务是选择一系列动作来改变环境的状态，并最大化长期的回报（通常用累计奖励的期望来表示）。智能体的决策策略通常基于学习算法得出并随时间推进而发生调整。

在强化学习中，有两种基本的方法：基于值函数的方法和基于策略的方法。基于值函数的方法，比如Q-learning，通过学习环境中每个状态和动作对应的近似值函数，从而指导智能体做出最优的行为。基于策略的方法，比如策略梯度方法，直接学习最优策略，而不是通过值函数间接地指导策略。

此外，在强化学习中还有一些重要的技术，例如探索与利用之间的权衡和奖励函数的设计。在探索和利用之间的权衡中，智能体需要通过探索新的策略来发现更好的解决方案，同时又要避免在已知的最优策略中浪费太多时间。在奖励函数的设计中，则需要找到最能代表环境和任务的奖励函数，以指导智能体的决策。

强化学习在许多领域中都有应用，包括自动驾驶车辆、机器人、游戏AI、推荐系统、广告优化等。

2、详细介绍

二、强化学习算法示例：火星探测器

三、强化学习的回报

四、强化学习中的策略

五、审查关键概念(马尔科夫决策过程)

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IAz- 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。