自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 问答 (2)
  • 收藏
  • 关注

原创 强化学习(Value Function Approximation)-Today9

Value Function Approximation主要是使用神经网络来求最优解问题,主要包括Algorithm for state value function、Sarsa和value function approximation的结合、Q-learning和value function approximation的结合、Deep Q-learning。,其实就是将Algorithm for state value function的state value换为action value。

2024-07-07 17:56:25 471

原创 numpy之数据处理

本博客包含对numpy的索引、array合并分割、copy&deep copy。

2024-07-07 16:31:37 120

原创 强化学习(On-Policy Learning and Off-Policy Learning)-Today8加更版

target policy:在已有的基础上不断更新最优策略,和环境交互,然后改进策略,在从环境交互的情况下选出最优策略,只在最初和环境交互。1.behavior policy:和环境交互性强,探索性更强,和环境不断交互,再更新算法,在和环境交互......On-Policy Learning和Off-Policy Learning在于Policy Update算法是使用。,a=其他policy。

2024-07-06 22:04:40 393

原创 强化学习(Temporal-Diffference learning)-Today8

Temporal-Diffference learning简称TD,是一种时序差分算法,以下主要包括TD算法的state value形式、TD算法的action value形式,如Sarsa、Expected Sarsa、n-Step Sarsa、Q-learning.,以下式子表述了在t+1时刻的state value和t时刻的state value的关系,使state value更接近最优的state value。证明:t+1时刻的state value更接近t时刻的state value。

2024-07-06 22:04:24 1098

原创 强化学习(Stochastic iterative algorithms and Stochastic Gradient Descent)-Today7

主要基于Robbins-Monro algorithm 简称RM展开,其中介绍RM以及mean estimation、gradient descent(GD)、batch gradient descent(BGD)、stochastic gredient descent(SGD)、momentum batch gradient descent(MBGD),此条件保证g(w)有界且经过横轴,g(w)递增且是凸函数。,此条件保证g(w)可以收敛至0,方程有解。为对g(w)=0的第k次估计,也就是最优解的估计,

2024-07-05 23:27:35 771

原创 强化学习(Monte Carlo learning)-Today6

Monte Carlo learning简称 MC,是model-free算法,也就是不基于模型的算法,Today5发布的value iteration and Policy iteration algorithm是model-based算法,是基于模型的算法,也就是说,没有模型的构建,需要数据的支撑,MC包括三个算法,分别是MC Basic 、MC Exploring Starts 和。时,服从均匀分布,每个policy的概率相等,是more exploration,更多的探索。

2024-07-05 21:18:08 1057

原创 强化学习(Value iteration and Policy iteration Algorithms)-Today5

value iteration 和policy iteration的区别在于value iteration是从state value开始的,而policy iteration是从策略policy开始的。开始,value iteration相当于只计算了一步,而policy iteration相当于计算了无穷步,由于取一个收敛的折中情况得到truncated policy iteration,由于policy iteration在理论上不存在,所以存在了这个截断策略迭代。:也分为两个步骤(包含内嵌迭代算法)

2024-07-03 20:38:54 193

原创 Python之小白numpy

调用还是很方便哒,加油加油。

2024-07-02 21:15:22 103

原创 强化学习(Bellman Optimality Equation)-Today4

对所有的策略π都成立,可以想象一下在不同抽奖箱抽奖,在A箱获奖概率为50%,在B箱获奖概率为80%,那么我们如果抽十次,一定希望每次都是B箱,可问题如果是搞混了两个箱子,并不知道哪个是A哪个是B呢?时,相应的policy也会随之做出改变,而如果r线性变为ar+b,则最优策略不会改变。

2024-07-02 21:08:51 135

原创 强化学习Bellman Equation-Today3

return是针对一个策略求最优解,而state value是可以针对多个策略求最优解,所以在贝尔曼公式中,return是state value求解策略的特例。贝尔曼公式是策略评估的一个工具,policy evaluation就是给出policy,列出贝尔曼公式,求解贝尔曼公式,最后得到state value进行评估,value就是价值,价值越大,策略越好。return为整个轨迹所获得的reward,求解贝尔曼公式就是找到一个最优策略来获得return最多。为state value。时,通过不断迭代求解。

2024-07-02 20:26:31 437

原创 强化学习感悟

今天看了李老师的强化学习,不太明白,打算先学赵老师的强化学习数学课和Python。

2024-06-28 21:14:32 119

原创 强化学习 Basic Concepts-Today2

⑤reward:即从一个state选择action所对应的奖励,如果走到禁止forbidden区域,则reward=-1。④policy:目标在一个状态下做出的行动,就是在一个位置下是怎样走可以赢得比赛所对应行走方向。趋于0时,则函数结果着眼于最近的reward,反之趋于1时,则趋于较远的reward。为0到1之间的数字,防止五子棋走到终点之后仍移动,使整个学习过程是收敛的即。①state:状态,就是我们所观察到的东西,如五子棋在棋盘的位置。②action:行动,即五子棋的移动,即可以前后左右移动。

2024-06-28 21:12:42 367

原创 强化学习框架(Reinforcement learning frame)-Today1

强化学习的主要目的是在环境中互动为达成目标进行学习,其实就像我们学高数一样,通过不断的学习获得知识,也通过不断做题学习解决方法,学习参考答案的方法,也有自己的解法。(3)value iteration 与 Policy iteration 的结合 即Truncated Policy iteration。以上主要是对赵老师第一节课的相关课堂笔记,个人目前认为强化学习需要长时间的架构,可能面临构建模型跑代码需要很长时间,加油加油。③核心元素:policy value。

2024-06-27 20:55:25 444

原创 强化学习+嵌入式

毕业大概一个月左右啦,但是在家感觉自己内驱力很不足,学习强化学习感觉很难,想不只是自己学习,还想每日去输出,总结自己学习过程,感觉研究生以后是要自己去学习的,所以当自己一个人的时候也应该有所输出,也打算不定时更新自己本科期间的一些嵌入式学习经验。

2024-06-27 10:43:36 90

原创 STM32两个按键控制跑马灯的开始和停止

按键控制跑马灯停止,按下按键二跑马灯停止,所有灯熄灭,再按按键一跑马灯 从头开始运行;

2021-06-18 11:09:21 10280 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除