P、Q为随机变量X的两个概率分布;p、q为对应的概率密度函数。KL散度用于衡量两个变量分布之间的差异性。
2024-03-13 14:13:31
800
矢量图格式之间的互相转换:SVG、EMF、PDF、EPS
2023-12-28 17:54:33
520
SAC全称Soft Actor-Critic算法,为优化目标引入了熵约束项,增大了动作的探索性,避免陷入局部最优解,
2023-09-07 22:12:07
273
TD3全称Twin Delayed DDPG,是对DDPG算法的继承、发展和改进。
2023-09-06 18:54:50
336
确定性策略梯度理论,在DPG算法中被提出,原论文,推导过程相当复杂,我也不大能看懂,总之用就完事了😂训练流程:参考了DQN,因此属于Off Policy算法,使用了经验回放缓存,引入了actor target和critic target。
2023-09-06 13:45:17
167
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。
2023-09-05 22:41:52
206
【代码】Powershell模拟实现Linux下的tree命令。
2023-09-05 21:54:58
461
全称Proximal Policy Optimization,是TRPO(Trust Region Policy Optimization)算法的继承与简化,大大降低了实现难度。
2023-09-05 21:29:32
107
PyTorch中特殊函数梯度的计算
2023-09-05 13:18:26
520
重要性采样个人笔记
2023-09-05 11:43:45
438
A2C算法
2023-09-04 15:21:39
148
VPG算法伪代码,对比REINFORCE算法
2023-09-03 19:06:02
284
MMDeploy步入v1版本后安装/使用难度大幅下降,这里以部署MMDetection项目的Faster R-CNN模型为例,将PyTorch模型转换为ONNX进而转换为Engine模型,部署到TensorRT后端,实现高效推理,主要参考了。每调用一次就会加载一次模型,效率很低,只是用来测试模型可用性,不能用在生产环境。要高效使用模型,可以集成Detector到自己的应用程序里面,一次加载,多次推理。
2023-08-30 18:42:30
500
1
内置vars函数用法,捕获对象属性值/作用域局部变量值
2023-08-29 00:13:58
97
nonlocal关键字声明与闭包的应用
2023-08-27 13:13:08
152
西湖大学赵世钰老师强化学习数学原理简略笔记---策略梯度部分
2023-08-18 22:08:37
231
LATEX公式文本上下堆叠,公式注释,在箭头上下添加说明文字
2023-07-22 00:14:49
236
WSL2安装CUDA的步骤
2023-07-16 23:35:50
744
【代码】pip镜像万能配置。
2023-07-14 21:30:59
51
使用Python调用ImageMagick生成PDF文件缩略图
2023-07-14 20:50:03
1160
2
以字符串形式打印出Python变量名
2023-05-13 16:34:36
441
1
以字符串形式打印出某个Python变量名
2023-05-13 16:27:59
356
Keil MDK配置ARM开发环境
2022-11-22 18:00:08
2105
自动控制原理超前校正梳理与例题示例
2022-11-16 21:54:49
3659
自动控制原理,奈奎斯特稳定判据的推导
2022-11-11 15:50:53
1215
mmdetection借助mmclassification才能使用最先的sota网络ConvNeXt,本文记录了一次将mmclassification下的ConvNeXt迁移到mmdetection的经验。
2022-11-02 18:54:06
513
2
可以白嫖的云数据库Planetscale
2022-08-03 13:18:49
5014
35
python高级数据结构:有序字典
2022-07-24 22:34:50
632
配置Jupyter远程服务器
2022-07-23 23:27:51
293
Jupyter添加、删除、查看内核
2022-07-17 19:06:10
500
解决.gitignore不生效的问题
2022-07-14 20:10:37
878
git stash的使用
2022-07-14 20:03:03
119
Python可变与不可变对象与内存开销
2022-07-11 09:08:28
308
Python数据传递、变量存储、深浅拷贝、指针相关方面的探究
2022-07-10 23:18:38
513
实例讲解Python可调用对象
2022-07-02 22:50:08
182
2
PIL图片转换为Tensor的详细原理
2022-07-02 22:45:39
665
通过实例与图形让你直接拿捏Python里面可迭代对象Iterable、迭代器Iterator、生成器Generator三者之间的关系
2022-06-28 19:10:04
397
Python的魔法方法__iter__
2022-06-28 17:55:53
7442
用实例讲解Python的__getitem__魔法方法与可迭代对象之间的关系
2022-06-26 17:42:13
640
1
学习Python必须知道的两个函数
2022-06-23 10:48:52
137