【人工智能与深度学习】不确定性下的预测和政策学习（PPUU）

最新推荐文章于 2024-07-18 18:43:19 发布

prince_zxill

最新推荐文章于 2024-07-18 18:43:19 发布

阅读量623

点赞数 6

分类专栏： Python实战教程人工智能与机器学习教程文章标签：人工智能深度学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61531676/article/details/130475635

版权

Python实战教程同时被 2 个专栏收录

104 篇文章 7 订阅 ¥29.90 ¥99.00

订阅专栏

人工智能与机器学习教程

74 篇文章 2 订阅 ¥29.90 ¥99.00

订阅专栏

【人工智能与深度学习】不确定性下的预测和政策学习（PPUU）

简介和问题设置

让我们去以一个完全没有强化学习的方式来学习。很多时候，我们训练模型，都是以一个不停犯错同时又由错误中学习的强化学习方式来学习。但这不是最好的方法，因为很容易偏离原先的轨道。

所以，让我们用一些更自认的方式来学习驾驶一辆车。以转弯来说说吧。比如有辆车时速100公里每小时，就是差不多一秒走30米吧，所以如果我们看30 米前方，就等于观察并预测未来1秒会发生的事。
在这里插入图片描述
图 1: 驾驶的同时也观察未来

如果我们想要转弯，那我们就要以未来会发生什么来作出决定。为了在数秒后做一个转向，我们要现在就要去作出行动，也就是要现在去转动方向盘，现在我们就正在转方向盘了。驾驶时下决定，不单单是基于你如何驾驶，也要看交通中的周围的车辆。因为周围的每一个人都不是那么确定性的，所以是十分困难来去用所有车的可能性来考虑。

现在就让我们来一步一步来解说如何运作。我们有一个代理人(以一个大脑来代表)，它以

了解本专栏

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
6
评论
【人工智能与深度学习】不确定性下的预测和政策学习（PPUU）

由一个尽可能接近实际未来的状态去实行一个特定的行动后，我们想要我们的模型的预测。现在我们也要对应着实际未来来计算损失，那我们就必须移除模型中的潜在变量，那是因为潜在变量给我们一个特定的预测，但算了吧，如果我们只用那些平均预测的话，这个设定反而运行得更好。这就如一个简单的网路，就如以下一样，当在一个特定的状态下，你作出一个行动，然后世界就给我们下一个状态和基效行动带来的后果。在最右边的那两个图片，我们可以看出两个不同的潜在变量们组成的集，它们有着一个真实的动作序列，和这些网路有被以随机关闭潜在的手法来训练。
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

prince_zxill 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。