lotylotylotyloty-CSDN博客

原创 0.5(Euler-Maruyama), 1(Milstein), 和1.5 阶强Stochastic Differential Equation格式总结

本文的目的在于提供0.5，1和1.5阶强SDE数值格式的推导和内容，所有推导基于$Ito-Taylor$展开，由于国内外网站缺少关于强SDE数值阶的总结，笔者在此特作总结，为使用SDE数值格式的读者提供帮助，本文需要读者预先已经知道了有关Brown-motion的基本性质和随机微分的基本性质，否则格式推导会看不懂。如果想要实际应用直接看数值格式即可。

2024-01-05 16:30:14 1904 4

原创 Soft-Actor-Critic2比较靠谱的代码版本(PyTorch)和梯度更新/不收敛等问题(附完整详细的每一部分代码)

网传版本有很多，但是存在诸多问题譬如:1.算法不收敛2.由于值网络的更新导致策略网络无法更新3.SAC效果不好这导致了笔者未在网络上找到一个代码可以同时的在三种机器人控制(游戏)环境:"BipedalWalker-v3","LunarLanderContinuous-v2","Pendulum-v1"上表现很好，笔者进行了错误汇总并进行了代码附属和实现，以弥补这个缺漏。

2023-04-18 21:45:34 4641 15

原创 Extreme Q-Learning(EQL)极值Q学习(ICLR 2023 top5%)(一)原理概述

为了跟进RL的最新进展和研究，并寻求高质量文章。本节笔者来介绍 ICLR2023 中得分在top前5%的文章《EXTREME Q-LEARNING: MAXENT RL WITHOUT ENTROPY》原理介绍，并进行了笔记归纳总结。方便各位读者进行学习。原文各位读者可以从Openreview中找到。同CQL一样，笔者将会从理论与应用两个角度来描述EQL算法，对于想直接应用的读者可以直接跳过理论部分直接查看如何应用。本文的作者最后也给出了EQL和CQL两篇文章之间的联系，希望给各位读者予以启发。1.预

2023-04-02 21:03:37 1781 8

原创 Conservative Q-Learning(CQL)保守Q学习(三)-CQL在DDPG下的代码实现和实际应用效果

一些，但是笔者在此问题"BipedalWalker-v3"中并未发现它的明显优势，只能说在Reward的结果上，两者差距并不是很大，并且还存在着偶然性。可能是由于10W的数据集采用Batch=256来采样效果可能稍差一些并且存在一定的偶然性。4.用户可以直接运行OFFLineT_CQL.py与OFFLineT_QL.py两个文件来分别对应的加入了CQL的DDPG和未加入CQL的DDPG算法，得到结果并画图。笔者对CQL进行了实现和原文章代码部分的修改，放在了下面的链接里，欢迎各位对代码提出点评和修正。

2023-04-01 14:38:06 1240 10

原创 Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL(R)与CQL(H)

本文内容为《Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)》的续写，限于篇幅，笔者无法将他们写在一起，必须分开来写，请各位读者见谅，本文将介绍CQL2的算法及其变种算法，并给出理论证明。

2023-03-26 18:38:57 1910 14

原创 Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)

本文介绍非常有用的C-Q Learning算法，有助于解决Q值低估的问题，本文讲介绍2020年NIPS上的文章是一篇兼具理论和实际应用的好文章。由于CQL原文内容符号比较混乱，并且在公式推导和符号定义上存在一些小错误。笔者进行了仔细阅读和分析，在此做出一些自己语言的总结理解和重述，给予和笔者一样的读者和研究者进行参考和帮助，希望可以和大家一起讨论和学习。、

2023-03-25 17:10:30 2513 17

原创 Proximal Policy Optimization(近端策略优化)(PPO)原理详解

PPO主要是针对Important-Sampling产生的不稳定性进行了CLIP操作和罚函数法，相比TRPO方法更简单容易实现，有了策略梯度的定义，可以结合其他Actor-Critic进行联合使用更新，并且PPO将策略梯度缺陷的on-policy变为了off-policy，更大可能的利用了采样样本，效率和速度都有了一定的提升。

2023-03-19 22:02:42 6334 6

原创 Diffusion Model (扩散生成模型)的基本原理详解(三）Stochastic Differential Equation(SDE）

本篇是《Diffusion Model (扩散生成模型)的基本原理详解(二）Score-Based Generative Modeling(SGM)》的续写，继续介绍有关diffusion的另一个相关模型，同理，参考文献和详细内容与上一篇相同，读者可自行查阅，**本篇为Diffusion入门基础介绍的完结篇，本篇来着重介绍Stochastic Differential Equation(SDE)的部分。

2023-02-24 12:13:51 6733 3

原创 Diffusion Model (扩散生成模型)的基本原理详解(二）Score-Based Generative Modeling(SGM)

本篇是《Diffusion Model (扩散生成模型)的基本原理详解(一）Denoising Diffusion Probabilistic Models(DDPM)》的续写，继续介绍有关diffusion的另一个相关模型，同理，参考文献和详细内容与上一篇相同，读者可自行查阅，本篇着重介绍Score-Based Generative Modeling(SGM)。

2023-02-23 18:20:44 8657 4

原创 Diffusion Model (扩散生成模型)的基本原理详解(一）Denoising Diffusion Probabilistic Models(DDPM)

本章笔者来介绍最近爆火的Diffusi Model的近期发展。本篇的学习内容与图片均来自于对文章[Diffusion Models: A Comprehensive Survey of Methods and Applications](https://arxiv.org/abs/2209.00796)的学习。本篇内容仅代表笔者个人学习观点和笔记，本篇内容的欢迎感兴趣的人一起学习和讨论，也欢迎大家对文章中错误进行纠正和批评。

2023-02-19 22:14:10 5890 10

原创多模态RL智能笔记(1): Generalist-Agent(Gato)大模型

受最近ChatGPT影响, RL的热潮不断兴起和发展，笔者也颇感兴趣，笔者认为它和DeepMind所开发的Gato的思想结合若能去长避短，那么未来人工智能的发展可能会更进一步。本篇主要针对自己最近的学习内容进行笔记总结，来介绍一下各界关注和跟进的另一个大模型：DeepMind所开发的Generalist-Agent(Gato)多模态智能体，原文链接如下

2023-02-17 18:13:54 3038 2

原创 Tensorflow&numpy&keras比较详细的学习笔记(附每一个函数的示例代码和练习程序）

笔者结合北京大学Tensorflow学习网课和一些个人理解对Tensorflow进行了系统化的学习和笔记总结，里面包括了从基础的张量创建到深入的进行构造BP,CNN,RNN等网络模型的Tensorflow_keras实现和改进，并利用北京大学Tensorflow学习网课中的样例进行了自我调整和实现。本文可供和笔者一样的网络初学者使用和参考，也可供时间不允许，需要迅速使用网络框架的学者参考，如需查阅详细CNN，RNN，LSTM，DHNN等详细构造和数学推导，笔者这里推荐各位一本不错的书:《Neural Ne

2021-10-07 21:45:22 1107 1