强化学习初入门

最新推荐文章于 2023-02-10 11:12:38 发布

£•€•×

最新推荐文章于 2023-02-10 11:12:38 发布

阅读量312

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43684686/article/details/109139570

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在网上搜索了关于强化学习的一些博客

强化学习是什么

	与有监督学习、无监督学习类似的机器学习算法

在这里插入图片描述
有监督学习是对有标签的数据进行训练从而对未知数据做预测
而强化学习是通过不断在学习中实践，在实践中学习的计算决策过程。通过不断地与环境交互，经过短期、长期的收益进行优化决策，获取最大收益的过程。
发现强化学习是一个状态不断转移的过程，想到了动态规划。索性查了一下：
动态规划是通过组合子问题的解来解决原问题
动态规划应用于子问题重叠的情况，即不同的子问题具有公共的子子问题
动态规划算法对每个子子问题只求解一次
动态规划通常用来求解最优化问题
动态规划=【最优子结构】+【边界】+【状态转移公式】

那么动态规划与强化学习究竟是什么关系呢？

强化学习最大的应用场景

游戏，打败世界围棋冠军的alphaGo和alphaZero，打败王者荣耀顶级职业玩家的腾讯强化学习系统“觉悟”
在这里插入图片描述
L5级的自动驾驶。当前强化学习在推荐系统、对话系统、教育培训、广告、金融等领域也有一些应用，主要是一些有交互的场景

基本结构

agent（人）在某种场景（state）下，做出某种行为（action），得到某种反馈（reward），这就是强化学习的四要素：状态(state)、动作(action)、策略（policy）、奖励(reward)。通过与环境的不断交互，agent可以优化自己做决策（policy）的正确性，以获取整个交互过程的最大收益。
在这里插入图片描述

分类

在这里插入图片描述

基于价值的算法

在这里插入图片描述
基于策略梯度的算法

来源：强化学习简介
 强化学习入门知识梳理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习初入门

在网上搜索了关于强化学习的一些博客强化学习是什么与有监督学习、无监督学习类似的机器学习算法有监督学习是对有标签的数据进行训练从而对未知数据做预测而强化学习是通过不断在学习中实践，在实践中学习的计算决策过程。通过不断地与环境交互，经过短期、长期的收益进行优化决策，获取最大收益的过程。发现强化学习是一个状态不断转移的过程，想到了动态规划。索性查了一下：动态规划是通过组合子问题的解来解决原问题动态规划应用于子问题重叠的情况，即不同的子问题具有公共的子子问题动态规划算法对每个子子问题只求解一次
复制链接

扫一扫

专栏目录

£•€•× CSDN认证博客专家 CSDN认证企业博客

码龄6年

83: 原创

12万+: 周排名

2万+: 总排名

11万+: 访问

: 等级

1654: 积分

54: 粉丝

55: 获赞

5: 评论

290: 收藏

私信

关注

热门文章

分类专栏

业余 3篇
笔记 16篇
深度学习 11篇
时间序列预测 3篇
前端 7篇
强化学习 4篇
赛题 3篇
赛题练习 2篇
机器学习 15篇
数据清洗 1篇
算法 3篇
统计 2篇
数据挖掘 7篇
计算机网络 6篇

最新评论

python批量读取图片
Rwen猿: 你这是一个一个读吧
python批量读取图片
red_star_: 直接用skimage.io.imread_collection()函数读取文件夹，如果图像已经编好顺序的话，结果也会是有顺序的
python批量读取图片
田木子0322: 在ubuntu里面跑的时候不知道为什么读取的图片没有按照文件名顺序打印
计算机网络应用层课后习题练习(一)
weixin_45862046: 博主，这个是哪里的课后题呀？
2020-09-24
weixin_46247750: cv_model 函数中 test=test_pred/kf.n_splits 是不是应该这么写test+=test_pred/kf.n_splits

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。