赵荏苒-CSDN博客

原创强化学习（Value Function Approximation）-Today9

Value Function Approximation主要是使用神经网络来求最优解问题，主要包括Algorithm for state value function、Sarsa和value function approximation的结合、Q-learning和value function approximation的结合、Deep Q-learning。,其实就是将Algorithm for state value function的state value换为action value。

2024-07-07 17:56:25 471

原创 numpy之数据处理

本博客包含对numpy的索引、array合并分割、copy&deep copy。

2024-07-07 16:31:37 120

原创强化学习（On-Policy Learning and Off-Policy Learning）-Today8加更版

target policy：在已有的基础上不断更新最优策略,和环境交互，然后改进策略，在从环境交互的情况下选出最优策略，只在最初和环境交互。1.behavior policy:和环境交互性强，探索性更强，和环境不断交互，再更新算法，在和环境交互......On-Policy Learning和Off-Policy Learning在于Policy Update算法是使用。,a=其他policy。

2024-07-06 22:04:40 393

原创强化学习（Temporal-Diffference learning）-Today8

Temporal-Diffference learning简称TD,是一种时序差分算法，以下主要包括TD算法的state value形式、TD算法的action value形式，如Sarsa、Expected Sarsa、n-Step Sarsa、Q-learning.，以下式子表述了在t+1时刻的state value和t时刻的state value的关系，使state value更接近最优的state value。证明：t+1时刻的state value更接近t时刻的state value。

2024-07-06 22:04:24 1098

原创强化学习（Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开，其中介绍RM以及mean estimation、gradient descent（GD）、batch gradient descent（BGD）、stochastic gredient descent（SGD）、momentum batch gradient descent（MBGD），此条件保证g（w）有界且经过横轴，g（w）递增且是凸函数。，此条件保证g（w）可以收敛至0，方程有解。为对g（w）=0的第k次估计，也就是最优解的估计，

2024-07-05 23:27:35 771

原创强化学习（Monte Carlo learning）-Today6

Monte Carlo learning简称 MC，是model-free算法，也就是不基于模型的算法，Today5发布的value iteration and Policy iteration algorithm是model-based算法，是基于模型的算法，也就是说，没有模型的构建，需要数据的支撑，MC包括三个算法，分别是MC Basic 、MC Exploring Starts 和。时，服从均匀分布，每个policy的概率相等，是more exploration，更多的探索。

2024-07-05 21:18:08 1057

原创强化学习(Value iteration and Policy iteration Algorithms)-Today5

value iteration 和policy iteration的区别在于value iteration是从state value开始的，而policy iteration是从策略policy开始的。开始，value iteration相当于只计算了一步，而policy iteration相当于计算了无穷步，由于取一个收敛的折中情况得到truncated policy iteration，由于policy iteration在理论上不存在，所以存在了这个截断策略迭代。:也分为两个步骤（包含内嵌迭代算法）

2024-07-03 20:38:54 193

原创 Python之小白numpy

调用还是很方便哒，加油加油。

2024-07-02 21:15:22 103

原创强化学习(Bellman Optimality Equation)-Today4

对所有的策略π都成立，可以想象一下在不同抽奖箱抽奖，在A箱获奖概率为50%，在B箱获奖概率为80%，那么我们如果抽十次，一定希望每次都是B箱，可问题如果是搞混了两个箱子，并不知道哪个是A哪个是B呢？时，相应的policy也会随之做出改变，而如果r线性变为ar＋b，则最优策略不会改变。

2024-07-02 21:08:51 135

原创强化学习Bellman Equation-Today3

return是针对一个策略求最优解，而state value是可以针对多个策略求最优解，所以在贝尔曼公式中，return是state value求解策略的特例。贝尔曼公式是策略评估的一个工具，policy evaluation就是给出policy，列出贝尔曼公式，求解贝尔曼公式，最后得到state value进行评估，value就是价值，价值越大，策略越好。return为整个轨迹所获得的reward，求解贝尔曼公式就是找到一个最优策略来获得return最多。为state value。时，通过不断迭代求解。

2024-07-02 20:26:31 437

原创强化学习感悟

今天看了李老师的强化学习，不太明白，打算先学赵老师的强化学习数学课和Python。

2024-06-28 21:14:32 119

原创强化学习 Basic Concepts-Today2

⑤reward：即从一个state选择action所对应的奖励，如果走到禁止forbidden区域，则reward=-1。④policy：目标在一个状态下做出的行动，就是在一个位置下是怎样走可以赢得比赛所对应行走方向。趋于0时，则函数结果着眼于最近的reward，反之趋于1时，则趋于较远的reward。为0到1之间的数字，防止五子棋走到终点之后仍移动，使整个学习过程是收敛的即。①state：状态，就是我们所观察到的东西，如五子棋在棋盘的位置。②action：行动，即五子棋的移动，即可以前后左右移动。

2024-06-28 21:12:42 367

m0_52094641的博客

原创强化学习（Value Function Approximation）-Today9

原创 numpy之数据处理

原创强化学习（On-Policy Learning and Off-Policy Learning）-Today8加更版

原创强化学习（Temporal-Diffference learning）-Today8

原创强化学习（Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

原创强化学习（Monte Carlo learning）-Today6

原创强化学习(Value iteration and Policy iteration Algorithms)-Today5

原创 Python之小白numpy

原创强化学习(Bellman Optimality Equation)-Today4

原创强化学习Bellman Equation-Today3

原创强化学习感悟

原创强化学习 Basic Concepts-Today2

原创强化学习框架(Reinforcement learning frame)-Today1

原创强化学习＋嵌入式

原创 STM32两个按键控制跑马灯的开始和停止

空空如也

为什么字符转换是这样呢？

串口为什么发送的是这个