- 博客(23)
- 收藏
- 关注
原创 Lightning基础训练尝试实例
动机:由于后续的课题中会用到类似图像去噪的算法,考虑先用U-Net,这里做一个前置的尝试。训练任务:分割出图像中的细胞。数据集:可私数据集结构:U-Net的网络实现是现成的,只需要在网上找一个比较漂亮的实现(一般都是模块化,写的很漂亮)copy就可以了,需要特别注意的是最后整合的模型:双卷积模块上采样模块下采样模块输出层2.2 整合模块->模型注意:模块可以不需要继承自L.LightningModule,只要最后整合的时候继承自L.LightningModule就可以了。重
2025-02-17 22:45:42
253
原创 强化学习-NPG
NPG来源于PG算法,是TRPO算法的前身。PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以采用的输入输出方式:(1)输入状态s,输出该状态下可选动作的选择概率(2)输入状态s与该状态下可选择的动作a,输出该状态-动作对的概率很显然,这以上两种方式都不能满足我们对动作空间连续的需求,第二种方式还需要多次推理,显然都超级不好。由于不直接输出动作,而是输出动作的概率,再依输出的概率选择概率最大的动作。
2025-02-15 23:00:02
902
原创 强化学习-DDPG
DDPG发展自DPG,同样是,相较于DPG,其变化是:DPG等前序的算法只是把“函数拟合”的思想引入强化学习,其实际流程还是相当于自己写了个底层(写了详细的参数更新流程),并没有引入深度学习(神经网络)相关的东西,而DDPG则与深度学习(神经网络)的方法更彻底的结合,直接把深度学习的工具拿来用。除此之外,还有DDPG还把双网络、经验回放引入了算法中。
2025-02-13 22:05:39
462
原创 Lightning初探
portch-lightning是pytorch的抽象和包装,它的好处是可复用性强,易维护,逻辑清晰等。学习使用portch-lightning可以使我们专注于模型,而不是其他的重复脏活。
2025-01-20 23:26:39
320
原创 强化学习的数学原理(十-2)Actor-Critic(Off-policy)
首先用一个探索性比较强的策略进行经验收集。对于每个epsoide的每一步:收集的经验为计算优势函数。
2025-01-16 08:36:34
475
原创 强化学习的数学原理(十-1)Actor-Critic初步
代表 policy update。算法中采用Actor来产生动作。代表 policy evaluation 或者 value estimation。算法中采用Critic来评价policy,或者做一些值的估计。
2025-01-15 15:39:31
490
原创 强化学习的数学原理(九)策略梯度方法
policy为表格情况下的最优策略是“实现最大的state value”,为此要最大化Q值(解贝尔曼公式或贝尔曼最优公式)但当policy用函数表达之后,最优策略就变成了“实现最大化我们定义的目标函数”,这个和之前的就完全不一样了(所以我在想,就有没有可能存在“最优的策略”可以满足“目标函数”,但不能满足“贝尔曼最优公式”的情况)(因为后续注意到了可以人为给偏好,所以是不是可能迭代不到全状态最优,就停止了?)(这里存疑)
2025-01-15 09:16:06
820
原创 强化学习的数学原理(八-2)Sarsa&Q-learning&DQN
不能用:基于表格的Q-learning-On-policy,基于值函数的Q-learning-On-policy,DQN-On-policy必须用:基于值函数的Q-learning-Off-policy,DQN-Off-policy可以用:基于表格的Q-learning-Off-policy。
2025-01-14 09:38:41
971
1
原创 强化学习的数学原理(八-1)值函数近似
(1)引入用函数拟合V值的思想(2)在给定拟合函数结构形式的前提下,给出求解拟合函数系数的方法-优化一个目标函数(3)给出了求解目标函数系数的一般性方法,为后续Q值近似打下基础SASASAsbs+2%7D+
2025-01-13 14:28:26
637
原创 强化学习的数学原理(七-3)TD算法总结
之前的所有能迭代策略的TD算法包括MC算法,都可以统一的表达为下面的形式:TD算法的目的就是使向TD target收敛。and。
2025-01-13 09:07:15
197
原创 强化学习的数学原理(七-2)Q-learning
Q-learning与前述介绍的TD算法的不同点是,它直接把最优的action value(Q值)给估计出来了,不需要policy evaluation与policy improvement交替进行(我的见解,这是Off-policy带来的性质)究其根本原因是,其他的TD算法是在求解贝尔曼公式,而Q-learning是在求解贝尔曼最优公式。
2025-01-12 21:29:47
636
原创 强化学习的数学原理(七-1)TD(时序差分)算法
从Sarsa到Expected Sarsa,再到n-step Sarsa,以及MC算法,我们可以看到它们就是在变化公式中TD-target部分的形式,从而演化出不同的算法。Sarsa系列的算法与MC算法本质上都在求解稍微不同的贝尔曼公式。后面的Q-learning也是差不多的思路。1%7D+2%7D&plus。
2025-01-12 17:21:36
1364
原创 强化学习的数学原理(五)蒙特卡洛方法
在之前的方法里面,一些Agnet与env交互的概率是知道的,如等,这样的话,相当于知道整个环境的模型。如果算法需要这些量已知,则称为Model base的方法。如果算法不需要这些量已知,则称为Model free的方法。
2025-01-06 18:34:04
686
原创 强化学习的数学原理(四)值迭代与策略迭代
之前介绍的求解内尔曼最优公式的迭代算法就是值迭代算法,已经学过了:迭代停止条件:设置一个epsilon,前后两次计算的V值,差值不大于这个epsilon就停止迭代。
2025-01-04 09:20:17
440
原创 强化学习的数学原理(一)基本概念
state_transition_probability:概率状态转移,在某一个状态下,采取某动作,有概率会转变为其他状态。
2024-12-27 21:27:09
690
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人