强化学习

最新推荐文章于 2023-03-28 21:19:37 发布

超人汪小建(seaboat)

最新推荐文章于 2023-03-28 21:19:37 发布

阅读量4.2k

点赞数 5

文章标签：强化学习机器学习马尔科夫决策过程 q学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyangzhizhou/article/details/78281255

版权

机器学习同时被 2 个专栏收录

35 篇文章 47 订阅 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

340 篇文章 0 订阅

订阅专栏

前言

机器学习可以大致分为四类：

监督学习
无监督学习
半监督学习
强化学习

监督学习是利用标记了的样本进行学习，无监督学习则是使用未标记的样本进行学习，这两个是我们最常见的。半监督学习则是样本中只有少量带标记的样本，多数样本都未标记，利用这些样本进行学习。强化学习则是很不同的一种学习方式，它没有规则的训练样本和标签，主要通过奖励和惩罚达到学习的目的。

什么是强化学习

《最强大脑》曾经有个挑战项目叫蜂巢迷宫，挑战者不断尝试不断试错。强化学习做法也类似，它主要包含三个概念：状态、动作和回报。同样是以迷宫为例，智能体所在的位置即是状态，从某个位置向某方向走一步则为动作，比如可以向左向右或向上向下，每走一步会产生回报，比如撞到墙就是负回报，好的动作则会带来正回报。而且不仅要关注当前的回报，还要关注长期的回报，通过不断试错学习到一个长期回报的动作序列。

强化学习是机器学习的主要学习方法之一，智能体从环境到行为的学习，也就是如何在环境中采取一些列行为，才能使得奖励信号函数的值最大，即获得的累积回报最大。

强化学习不同于监督学习，监督学习通过正确结果来指导学习，而强化学习通过环境提供的信号对产生的动作的好坏做一种评价，它必须要靠自身经历进行学习。学习后智能体知道在什么状态下该采取什么行为，学习从环境状态到动作的映射，该映射称为策略。

如下图，一个智能体agent通过与环境environment相互交互并以一定的策略改变环境，agent可以从环境中得到状态

了解本专栏

超级会员免费看

超人汪小建(seaboat)

关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习

前言机器学习可以大致分为四类：监督学习无监督学习半监督学习强化学习监督学习是利用标记了的样本进行学习，无监督学习则是使用未标记的样本进行学习，这两个是我们最常见的。半监督学习则是样本中只有少量带标记的样本，多数样本都未标记，利用这些样本进行学习。强化学习则是很不同的一种学习方式，它没有规则的训练样本和标签，主要通过奖励和惩罚达到学习的目的。什么是强化学习《最强大脑》曾经有个挑战项目叫蜂巢迷
复制链接

扫一扫

专栏目录

超人汪小建(seaboat)

CSDN认证博客专家 CSDN认证企业博客

码龄14年

663: 原创

1万+: 周排名

796: 总排名

259万+: 访问

: 等级

2万+: 积分

4543: 粉丝

1325: 获赞

710: 评论

1275: 收藏

私信

关注

热门文章

最新评论

我的新书《Java编程动手学》
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是带着深思熟虑，给予我新的学识，每篇博客都是一次心灵的洗礼，你的分享不仅教育了我，也丰富了我的内心世界。期待你的未来更新，继续前行！
Tomcat内核、集群、参数及性能
超人汪小建(seaboat): 哈哈，好多年前的代码了
Tomcat内核、集群、参数及性能
Lv_Jin_Gang: * @author seaboat * @date 2016/4/11 * @version 0.1 * * <pre> * <b>copyright: </b>ctg * </pre> * * <pre> * <b>email: </b>849586227@qq.com * </pre> * * <pre> * <b>blog: </b>http://blog.csdn.net/wangyangzhizhou * </pre> * * <pre> * Please go to the url below to get all statements. * </pre> * @see http://xxxxxxudal/ctg-udal-sqlparser
Tomcat内核、集群、参数及性能
Lv_Jin_Gang: 我看你写的udal的源码了，只可惜在电信那会没多看你们的源码
从JDK源码看String(上)
梦凝哲雪: JDK8 还是 char数组 9已经变成 byte了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

超人汪小建(seaboat) 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。