强化学习入门到不想放弃-4

最新推荐文章于 2024-11-10 11:53:38 发布

周博洋K

最新推荐文章于 2024-11-10 11:53:38 发布

阅读量667

点赞数 21

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/142747781

版权

上回的地址：强化学习入门到不想放弃-3 (qq.com)

上上回地址：强化学习入门到不想放弃-2 (qq.com)

上上上回地址：强化学习入门到不想放弃-1 (qq.com)

好久没更新了，也是不知道写啥啊，（有些文章刚写了就被有些企业给告了，然后就被删了，我也不知道我啥不该些的了

）正好O1比较火，我就想起来我之前写的RL强化学习这块，之前是真的没人看啊，RL现在因为O1就特别的火了，所以我再尝试一下写写，看看有人看没。

可能也是我写的太散了，太书本话了，那今天先从广义上大家想了解的PPO吧，后面会写DPO, Q-learning， DQN

强化学习的一些基本概念，上面的机器人叫Agent，下面的地球叫environment。

Agent：与环境交互的进程（也可以是网络）

Environment：即环境，说白了就是一些规则的集合（已知的/未知的）

Agent和Environment有三种交互方式

1- Obseveration: 就是观察环境，观察什么呢？就是观察环境的状态，也就是state，那什么是state呢？比如说AlpacaGo可以观察围棋的棋盘上面的落子，或者图里的看到一杯水。

2- Action：就是对环境执行的动作，Action对环境执行了动作以后，环境就改了，比如把水给洒桌子上了，那state 也就是环境的状态，也就变了

3- Reward：Agent默认如果对环境的规则没有任何概念的话，它是不知道如何做的，但是比如弄洒了水咋桌子以上，这种的行为，其实就是一个减分项，如果我们认为洒水要-100分，而把水擦干会得200分，那在之后Agent于环境的操作就不会洒水了，而发现别的水洒了，它会擦干，其实就有点像小孩对这个世界刚开始的认识差不多，是靠一些奖惩机制来了解世界的。

从一个抽象的理解，其实强化学习就是这么定义的。

我们拿Super Mario Bro来套用刚才的概念

1- Action Space：就是你能做哪些操作，比如这里我就给一个向量

{left，right，A, B} （任天堂的操作），这是指这个游戏里你可以操作Mario执行任何的操作

2- Policy：Policy就是Agent Oberserve了Environment以后，比如它可以读取棋盘的对弈态势，或者它能通过几个连续帧来了解你的Mario处于的危险之中，以后输出Action的概率分布，一般用π来表示。

比如：{left:0.2，right0.2，A:0.2, B:0.4} (跳的操作)

3- Trajectiory：也就是轨迹，什么是轨迹呢，因为对于一局国际象棋，一局Super Mario，虽然某些动作能决定你的生死，比如一记妙手，比如前方有个乌龟正挡在Mario前进的道路上。

但是，大部分的情况下，一个action，决定不了你的输赢，你的胜利正常情况下是建立在一系列的动作操作基础上的，说白了是一个序列，我们一般叫它Episode, 由若干个state和action组成，这里用s和a来简写

比如{S0,a0，S1,a1,s2,a2.....St,at,St+1,at+1}

st+1一般是由st,at来决定的

st+1分为，确定的，和不确定的，比如围棋的落子就是确定的，比如马里奥顶带有？的格子拿宝物，就是不确定的。

而a其实也分为两种，第一种是离散的，比如Mario的操作，上下左右，BA啥的，这样好弄，但是第二种连续的，就比较麻烦，比如求一个温度，求一个力量的牛顿数，这种就很难采样，这些以后讲怎么处理。

4- 最后一个就是 Return或者交Total reward，就是你执行的所有action统一获得的奖励的和。

先写到这，下节应该写马尔科夫和贝尔曼方程，不过也可能想到啥写啥，毕竟我没有提纲

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

108: 原创

3万+: 周排名

1万+: 总排名

10万+: 访问

: 等级

3320: 积分

1599: 粉丝

2237: 获赞

15: 评论

1826: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。