机器学习第16章（强化学习）

最新推荐文章于 2023-03-28 08:36:13 发布

罗辑罗辑

最新推荐文章于 2023-03-28 08:36:13 发布

阅读量239

点赞数

分类专栏：机器学习文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinhualun911/article/details/108909299

版权

机器学习专栏收录该内容

25 篇文章 9 订阅

订阅专栏

强化学习（reinforcement learning）

16.1 任务与奖赏

策略的优劣取决于长期执行这一策略后所得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。

强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。

16.2 K-摇臂赌博机

仅探索法能很好的估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；仅利用法没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂。

softmax算法基于当前已知的摇臂平均奖赏来对探索和利用进行折中，若各摇臂的平均奖赏相当，则选取各摇臂的概率也相当；若某些摇臂的平均奖赏明显高于其他摇臂，则它们被选取的概率也明显更高。

16.3 有模型学习

在已知模型的环境中进行学习称为有模型学习model-based learning。

16.4 免模型学习

若学习算法不依赖于环境建模，则称为免模型学习model-free learning。

16.5 值函数近似

16.6 模仿学习（imitation learning）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习第16章（强化学习）

强化学习（reinforcement learning）16.1 任务与奖赏策略的优劣取决于长期执行这一策略后所得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。16.2 K-摇臂赌博机仅探索法能很好的估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；仅利用法没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂。sof...
复制链接

扫一扫

专栏目录

博客等级

码龄10年

44
原创

94
点赞

603
收藏

134
粉丝

关注

私信

热门文章

分类专栏

最新评论

Generative Adversarial Networks 生成对抗网络 Matlab实现与讲解
qq_41504736: 抱歉，我看错了，固定辨别器时，训练生成器确实要以1为标签训练。不过那个交叉熵损失函数还是不太理解，为什么要加最值和绝对值运算？
Generative Adversarial Networks 生成对抗网络 Matlab实现与讲解
qq_41504736: 实际抄过来跑了一下，使用代码提供的交叉熵损失函数算了上千步，嗯，还是把学习因子乘了十，否则算一万步也没满足相关系数大于0.6的退出条件；而采用不加最大值和绝对值的原始交叉熵损失函数，不到四百步就算出来了，可以问一下博主为什么要用加最值与绝对值的交叉熵损失函数呢？另外，我把更新生成器时，输出位置的标签从ones改成了zeros，从整体代码逻辑来看，博主采用的假数据标签应该是0而不是1吧，不然辨别器和生成器的更新方向会互相矛盾。
GAN(生成对抗网络)Matlab代码详解
2401_86226466: 巨佬，您好！可以分享源码和数据集合吗？我的邮箱是2502418718@qq.com，万分感谢!
LOF(local outlier factor)算法的Matlab版本实现
wuli代码: 大佬能发个数据集吗，跪求表情包邮箱：xds2326@163.com
GAN(生成对抗网络)Matlab代码详解
weixin_48230670: 您好大佬，能分享一下源码和数据集合吗？我的邮箱是1975339501@qq.com，万分感谢!

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。