自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

blue_STOME的博客

原创 RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day3

Classification of RL MethodsprefaceDefinition of RL ProblemsBellman's Principle of OptimalityTwo Kinds of Bellman EquationIndirect RL MethodsPolicy IterationValue IterationDirect RL Methodspreface术语"强化学习"指的是一类问题和一组计算方法。从历史上看,只有试图解决随机决策问题的一些计算方法才被称为强化学习算

2024-04-28 11:04:06 1131

原创 RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day2

Four Elements of RL ProblemsprefaceEnvironment ModelState-Action SamplePolicyTabular PolicyParameterized PolicyReward SignalLong-term ReturnValue FunctionSelf-consistency Conditionpreface强化学习(RL)是人工智能和自动控制的一个交叉学科分支。它通常指一组可以为动态环境生成最优决策的策略搜索算法。就像训练宠物时用刺激和

2024-04-25 17:40:37 883 2

原创 RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day1

History of RLbackgrandDynamic ProgrammingTrial-and-Error LearningExamples of RL ApplicationsTic-Tac-ToeChinese GoAutonomous VehiclesKey Challenges in Today's RLExploration-Exploitation DilemmaUncertainty and Partial ObservabilityTemporally Delayed RewardIn

2024-04-24 17:06:07 1179 1

原创算法日志篇 week3

目录@[TOC](目录)B - 求平均年龄 OpenJ_Bailian - 2714C - 判断闰年 OpenJ_Bailian - 2733D - 波兰表达式 OpenJ_Bailian - 2694E - 最大公约数 OpenJ_Bailian - 3248F - 1的个数 OpenJ_Bailian - 3708G - 计算鞍点 OpenJ_Bailian - 3670H - Lab杯 OpenJ_Bailian - 2992I - 菲波那契数列(2) OpenJ_Bailian - 2758J -

2024-02-29 11:46:36 1408

原创算法日志篇 week2

此题的中文大致意思是给出一个字符串，然后用两种方式来生成另一个字符串，新字符串t要和旧的字符串s前几位上的每一位都相反（0-1或1-0），第一种方式为删掉原字符串中的某几位，第二种方式为交换原字符串中的某几位。此题的解法为：先统计出原字符串内有几个‘0’与‘1’，进行存储，随后对字符串进行遍历，包含如下三种情况：1.原字符串大小为一，此时直接输出1就行。ps：删去。

2024-02-04 19:56:43 987 1

原创算法日志篇

算法训练日志，从易到难

2024-01-28 20:23:55 1937 2

原创 Spring学习日志

Spring概述与IOC的xml配置形式学习笔记

2022-02-15 00:46:15 666 2

原创 java网络编程基础

java网络编程基础，概括。

2022-01-26 17:33:01 655 1

原创 java回顾总结。

javase回顾总结。

2022-01-25 20:49:18 3777 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄6年

9
原创

144
点赞

131
收藏

107
粉丝

关注

私信

热门文章

最新评论

RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day1
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day2
CSDN-Ada助手: 恭喜作者第8篇博客的发布！学习日志对于记录学习过程和总结经验是非常有益的。建议在未来的创作中，可以结合自己的理解和思考，增加一些个人见解和实践经验，让读者更加深入地了解你在RL学习中的心得体会。期待你的下一篇作品！加油！
RL学习日志：（Reinforcement Learning for Sequential Decision and Optimal Control）Day2
Red_STOME: 在强化学习中，马尔科夫环境是一种满足马尔科夫性质的决策环境。这里的马尔科夫性质意味着环境的未来状态仅依赖于当前状态和采取的行动，而与以往的历史状态或行动无关。这种性质简化了决策过程的建模，因为它允许我们只考虑当前的信息，而不需要追溯整个历史。马尔科夫性质（Markov Property）马尔科夫性质可以数学地表达为：对于所有状态 𝑠和 𝑠′以及所有的行动 𝑎，𝑃(𝑠𝑡+1=𝑠′∣𝑠𝑡=𝑠,𝑎𝑡=𝑎,𝑠𝑡−1,𝑎𝑡−1,…,𝑠1,𝑎1)=𝑃(𝑠𝑡+1=𝑠′∣𝑠𝑡=𝑠,𝑎𝑡=𝑎) 这里 𝑃表示概率，𝑠𝑡 和 𝑎𝑡分别表示在时间 𝑡的状态和行动。马尔科夫决策过程（MDP）当一个马尔科夫环境中包括了奖励的概念，并且决策者的目标是最大化某种形式的累积奖励时，这样的环境称为马尔科夫决策过程（Markov Decision Process，MDP）。一个MDP可以由以下元素定义：状态集合 𝑆行动集合 𝐴转移概率 𝑃(𝑠′∣𝑠,𝑎)：在状态 𝑠下采取行动 𝑎后转移到状态 𝑠′的概率。奖励函数 𝑅(𝑠,𝑎,𝑠′)：在状态 𝑠下采取行动 𝑎并转移到状态 𝑠′后获得的奖励。折扣因子 𝛾：用于调节未来奖励的当前价值，通常 𝛾在 0 和 1 之间。马尔科夫环境的应用：马尔科夫环境在许多领域都有应用，包括但不限于：自动化控制：如机器人导航、自动驾驶车辆。经济学：如股票市场建模、决策分析。游戏理论：如棋类游戏
算法日志篇 week2
CSDN-Ada助手: 恭喜你写了第5篇博客！坚持不懈地分享算法日志，让我们受益匪浅。接下来，或许可以考虑添加一些实际案例或者个人见解，让读者更加深入地理解算法的应用和意义。期待你的下一篇作品！
算法日志篇
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

提示

确定要删除当前文章？

取消删除