自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 0.5(Euler-Maruyama), 1(Milstein), 和1.5 阶强Stochastic Differential Equation格式总结

本文的目的在于提供0.5,1和1.5阶强SDE数值格式的推导和内容,所有推导基于$Ito-Taylor$展开,由于国内外网站缺少关于强SDE数值阶的总结,笔者在此特作总结,为使用SDE数值格式的读者提供帮助,本文需要读者预先已经知道了有关Brown-motion的基本性质和随机微分的基本性质,否则格式推导会看不懂。如果想要实际应用直接看数值格式即可。

2024-01-05 16:30:14 488 2

原创 Soft-Actor-Critic2比较靠谱的代码版本(PyTorch)和梯度更新/不收敛等问题(附完整详细的每一部分代码)

网传版本有很多,但是存在诸多问题譬如:1.算法不收敛2.由于值网络的更新导致策略网络无法更新3.SAC效果不好这导致了笔者未在网络上找到一个代码可以同时的在三种机器人控制(游戏)环境:"BipedalWalker-v3","LunarLanderContinuous-v2","Pendulum-v1"上表现很好,笔者进行了错误汇总并进行了代码附属和实现,以弥补这个缺漏。

2023-04-18 21:45:34 1515 8

原创 Extreme Q-Learning(EQL)极值Q学习(ICLR 2023 top5%)(一)原理概述

为了跟进RL的最新进展和研究,并寻求高质量文章。本节笔者来介绍 ICLR2023 中得分在top前5%的文章《EXTREME Q-LEARNING: MAXENT RL WITHOUT ENTROPY》原理介绍,并进行了笔记归纳总结。方便各位读者进行学习。原文各位读者可以从Openreview中找到。同CQL一样,笔者将会从理论与应用两个角度来描述EQL算法,对于想直接应用的读者可以直接跳过理论部分直接查看如何应用。本文的作者最后也给出了EQL和CQL两篇文章之间的联系,希望给各位读者予以启发。1.预

2023-04-02 21:03:37 1071 7

原创 Conservative Q-Learning(CQL)保守Q学习(三)-CQL在DDPG下的代码实现和实际应用效果

一些,但是笔者在此问题"BipedalWalker-v3"中并未发现它的明显优势,只能说在Reward的结果上,两者差距并不是很大,并且还存在着偶然性。可能是由于10W的数据集采用Batch=256来采样效果可能稍差一些并且存在一定的偶然性。4.用户可以直接运行OFFLineT_CQL.py与OFFLineT_QL.py两个文件来分别对应的加入了CQL的DDPG和未加入CQL的DDPG算法,得到结果并画图。笔者对CQL进行了实现和原文章代码部分的修改,放在了下面的链接里,欢迎各位对代码提出点评和修正。

2023-04-01 14:38:06 657 10

原创 Conservative Q-Learning(CQL)保守Q学习(二)-CQL2(下界V值估计),CQL(R)与CQL(H)

本文内容为《Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)》的续写,限于篇幅,笔者无法将他们写在一起,必须分开来写,请各位读者见谅,本文将介绍CQL2的算法及其变种算法,并给出理论证明。

2023-03-26 18:38:57 1033 13

原创 Conservative Q-Learning(CQL)保守Q学习(一)-CQL1(下界Q值估计)

本文介绍非常有用的C-Q Learning算法,有助于解决Q值低估的问题,本文讲介绍2020年NIPS上的文章 是一篇兼具理论和实际应用的好文章。由于CQL原文内容符号比较混乱,并且在公式推导和符号定义上存在一些小错误。笔者进行了仔细阅读和分析,在此做出一些自己语言的总结理解和重述,给予和笔者一样的读者和研究者进行参考和帮助,希望可以和大家一起讨论和学习。、

2023-03-25 17:10:30 1052 12

原创 Proximal Policy Optimization(近端策略优化)(PPO)原理详解

PPO主要是针对Important-Sampling产生的不稳定性进行了CLIP操作和罚函数法,相比TRPO方法更简单容易实现,有了策略梯度的定义,可以结合其他Actor-Critic进行联合使用更新,并且PPO将策略梯度缺陷的on-policy变为了off-policy,更大可能的利用了采样样本,效率和速度都有了一定的提升。

2023-03-19 22:02:42 4139 5

原创 Diffusion Model (扩散生成模型)的基本原理详解(三)Stochastic Differential Equation(SDE)

本篇是《Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一篇相同,读者可自行查阅,**本篇为Diffusion入门基础介绍的完结篇,本篇来着重介绍Stochastic Differential Equation(SDE)的部分。

2023-02-24 12:13:51 3839 2

原创 Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)

本篇是《Diffusion Model (扩散生成模型)的基本原理详解(一)Denoising Diffusion Probabilistic Models(DDPM)》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一篇相同,读者可自行查阅,本篇着重介绍Score-Based Generative Modeling(SGM)。

2023-02-23 18:20:44 2643 3

原创 Diffusion Model (扩散生成模型)的基本原理详解(一)Denoising Diffusion Probabilistic Models(DDPM)

本章笔者来介绍最近爆火的Diffusi Model的近期发展。本篇的学习内容与图片均来自于对文章[Diffusion Models: A Comprehensive Survey of Methods and Applications](https://arxiv.org/abs/2209.00796)的学习。本篇内容仅代表笔者个人学习观点和笔记,本篇内容的欢迎感兴趣的人一起学习和讨论,也欢迎大家对文章中错误进行纠正和批评。

2023-02-19 22:14:10 3735 10

原创 多模态RL智能笔记(1): Generalist-Agent(Gato)大模型

受最近ChatGPT影响, RL的热潮不断兴起和发展,笔者也颇感兴趣,笔者认为它和DeepMind所开发的Gato的思想结合若能去长避短,那么未来人工智能的发展可能会更进一步。本篇主要针对自己最近的学习内容进行笔记总结,来介绍一下各界关注和跟进的另一个大模型:DeepMind所开发的Generalist-Agent(Gato)多模态智能体,原文链接如下

2023-02-17 18:13:54 1057 2

原创 Tensorflow&numpy&keras比较详细的学习笔记(附每一个函数的示例代码和练习程序)

笔者结合北京大学Tensorflow学习网课和一些个人理解对Tensorflow进行了系统化的学习和笔记总结,里面包括了从基础的张量创建到深入的进行构造BP,CNN,RNN等网络模型的Tensorflow_keras实现和改进,并利用北京大学Tensorflow学习网课中的样例进行了自我调整和实现。本文可供和笔者一样的网络初学者使用和参考,也可供时间不允许,需要迅速使用网络框架的学者参考,如需查阅详细CNN,RNN,LSTM,DHNN等详细构造和数学推导,笔者这里推荐各位一本不错的书:《Neural Ne

2021-10-07 21:45:22 826 1

原创 机器学习算法分类概要汇总(一)ML-KNN算法(含代码)

笔者结合机器学习过程中利用MATLAB编程所实现的一些算法来对一些常见算法进行了函数封装便于初学人士进行参考和利用,这里简要介绍算法的概念和主要方法,适用于初学者去理解算法!注意!是理解算法,本文主要以例子来讲述算法,更加注重实际应用。更加详细算法的实现请见其他博客。一、ML-KNN算法算法概要介绍。多标签学习算法是基于KNN算法的一种改进算法,这里大概介绍一下ML—KNN算法的实现过程,结合一种例子方便不了解的人士来学习,直接上例子,便于大家去理解,问题引出 先给出一列三维样本特征及其三维坐标点

2020-11-11 19:36:49 2712 11

原创 经典数学模型之——灰度预测模型

1.灰度模型GM(1,1)简介和适用条件①GM(1,1)简介:灰度模型是一种强大的预测模型,是基于原始的数据进行累加计算求得一种规律在进行建模的模型,其强大在于将无序的原始序列可以转变为一种有序的生成指数序列,缺点在于它只适合于指数增长的预测,较为单一,GM(1,1)为一阶只含一个变量的微分方程模型。②GM(1,1)适用条件和改进(1)适用条件:已知原始样本数量为nnn,这里首先定义可容覆盖区间Θ\ThetaΘ如下:Θ=(e−2n+1,e2n+2) \Theta=( e^{-2\over n+

2020-08-16 18:24:36 15820 2

原创 两种方法对经典最小二乘法的改进

一、经典最小二乘法①经典最小二乘法原理介绍最小二乘法的原理实质比较简单,本质的目的是要确定如下建立的一元线性回归模型的两个回归参数a1a_1a1​和b1b_1b1​:y=a1x+b1y=a_1x+b_1y=a1​x+b1​若已知m组样本观测数据(xi,yi)(i=1,2,3,4⋅⋅⋅m)(x_i,y_i)(i=1,2,3,4···m)(xi​,yi​)(i=1,2,3,4⋅⋅⋅m),经典的做法是根据离差平方和来达到一种最小的准则来进行确定的,即确定满足下面条件的a1′a_1'a1′​和b1′b_

2020-08-08 16:11:15 6363 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除