自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

江南才尽江南山,年少无知年少狂!

愿你十载归来,你仍年少依旧狂,那时漫天枫叶书窗前,笔墨深秋锁江南!

  • 博客(577)
  • 收藏
  • 关注

原创 (02)Cartographer源码无死角解析-(00)目录_最新无死角讲解

本专栏适合自动驾驶、服务/仓储/扫地机器人等领域的工程师、在读学生、教师等。史上最新最全Cartographer讲解,不漏任何一个细节推理,无死角的公式推导与源码解析,并讲解算法落地的工程实践技巧,代码改进方向等,快速上手做项目。点击本人照片即可显示。

2022-10-16 18:08:55 7771

原创 史上最全slam从零开始-总目录

讲解关于slam一系列文章主要分为以下几个板块,其中的序列号代表其学习难度,入门学员建议从01开始学习,相同序列号表示其难度相当文末正下方中心提供了本人联系方式,点击本人照片即可显示WX→官方认证。

2022-02-23 16:20:56 51881 6

转载 (01)ORB-SLAM2源码无死角解析-(00)目录_最新无死角讲解

应用领域:机器人、自动驾驶、增强现实、无人机。ORB-SLAM2是视觉SLAM中特征点法的开源代表作,是学习SLAM必学的第一个开源算法。同时支持单目、双目、RGBD相机,涵盖视觉SLAM领域核心算法,包括地图初始化、实时跟踪、局部建图、回环检测、BA优化。本文内容来自计算机视觉life ORB-SLAM2 课程课件。

2022-02-23 16:03:34 29587 15

原创 行为分析(商用级别)00-目录-史上最新无死角讲解

该专栏的一系列博客,主要是对人类行为分析算法的落地(商用),如识别行为:跳舞,跑步,站立,扔垃圾,游泳等。行为分析的项目想要落地,其实还是挺困难的,涉及到的知识面比较广。接下来,我会为大家无死角的对该项目进行讲解,之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!废话不多说,我们直接开始吧...

2021-04-13 20:01:32 4061 2

原创 2021计算机视觉-包揽所有前沿论文源码 -上半年

大家是否遇到过这种情况,就是在工作或者学习的时候,想去找一些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人决定收集2020年大部分前沿的网络相关链接,之后我会:每周一更新一次(下面是我多年年收集的链接地址)\color{red}{每周一更新一次(下面是我多年年收集的链接地址)}每周一更新一次(下面是我多年年收集的链接地址)2019计算机视觉-包揽所有前沿论文源码2020计算机视觉-包揽所有前沿论文源码有兴趣的朋友可以加微信:a9442847

2020-12-19 11:11:41 14083 15

原创 姿态估计4-00:voxelpose(多视角3D人体姿态估算)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析 voxelpose(多视角3D人体姿态估算),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于voxelpose(多视角3D人体姿态估算) 的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文题目为:VoxelPose: Towards Multi-Camera 3D Human Pose Estimatio

2020-12-08 15:07:04 4988

原创 目标检测00-00:mmdetection(Foveabox为例)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析mmaction2(SlowFast-动作识别),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于mmdetection(Foveabox)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文为:FoveaBox: Beyond Anchor-based Object Detector如果本人代码修改了很多,

2020-09-02 18:59:12 2706

原创 行人重识别02-00:fast-reid(BoT)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析fast-reid(MGN-行人重识别),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于fast-reid(MGN)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文为:Learning Discriminative Features with Multiple Granularities for Pers

2020-08-15 16:52:25 7897 5

原创 动作识别0-00:mmaction2(SlowFast)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析mmaction2(SlowFast-动作识别),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于mmaction2(SlowFast)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文为:SlowFast:SlowFast Networks for Video Recognition如果本人代码修改了很多

2020-07-23 11:02:20 12178 3

原创 姿态估计2-00:PVNet(6D姿态估计)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析PVNet(6D姿态估计-物体六自由度位姿估计),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于PVNet(6D姿态估计)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,如果本人代码修改了很多,在最后一个章节,我会公布我修改之后的源码\color{red}{如果本人代码修改了很多,在最后一个章节,我会公布我修改之后的源码

2020-06-30 11:39:47 8851 5

原创 姿态估计1-00:HR-Net(人体姿态估算)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析HR-Net(人体姿态估算),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于HR-Net(人体姿态估算)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文题目为:FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estima

2020-06-19 12:48:54 6369 2

原创 风格迁移2-00:MUNIT(多模态无监督)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析MUNIT(多模态无监督),其属于风格迁移系列,之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于 2018 年 NVIDIA 提出 MUNIT 的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文题目为...

2020-04-02 14:36:34 4639

原创 detectron2(目标检测框架)无死角玩转-00:目录

接下来,我会为大家无死角的解析detectron2(基于pytorch的目标检测框架),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于detectron2(基于pytorch的目标检测框架)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,废话...

2020-01-16 16:44:25 19345 15

原创 2020计算机视觉-包揽所有前沿论文源码

大家是否遇到过这种情况,就是在工作或者学习的时候,想去找一些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人决定收集2020年大部分前沿的网络相关链接,之后我会:每周一更新一次(下面是我2019年收集的链接地址)\color{red}{每周一更新一次(下面是我2019年收集的链接地址)}每周一更新一次(下面是我2019年收集的链接地址)2......

2020-01-07 20:16:57 16476 16

原创 风格迁移1-00:Liquid Warping GAN(Impersonator)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析Liquid Warping GAN(Impersonator),其属于姿态迁移系列,之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于上科大、腾讯提出的Liquid Warping GAN,Impersonator(姿态迁移)的讲...

2019-12-28 17:20:38 3161 9

原创 姿态估计1-00:FSA-Net(头部姿态估算)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析FSA-Net(头部姿态估算),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于FSA-Net(头部姿态估算)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该网络对应的论文题目为:FSA-Net: Learni...

2019-12-14 14:41:54 15997 5

原创 姿态估计0-00:DenseFusion(6D姿态估计)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析DenseFusion(6D姿态估计-物体六自由度位姿估计),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于DenseFusion(6D姿态估计)的讲解,我的这一系列博客或许不是国内最早的,但是肯定是最详细的,该论文是视觉界大佬...

2019-11-15 18:32:21 25482 7

原创 3D点云重建0-00:MVSNet(R-MVSNet)-目录-史上最新无死角讲解

接下来,我会为大家无死角的解析MVSNet(R-MVSNet)-多视角立体深度推到,之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)视觉工作项目-为后来的你,提供一份帮助!我相信,关于MVSNet(R-MVSNet)的讲解,我的这一系列博客肯定是国内最早最详细的,MVSNet篇论文在2018属于Oral级别,到...

2019-11-08 09:56:20 13480 9

原创 2019计算机视觉-包揽所有前沿论文源码

大家是否遇到过这种情况,就是在工作或者学习的时候,想去某些方向的网络,但是呢,尴尬的是,老旧的网络里不想要,前沿的网络又不知道有哪些。为了解决大家的这个困扰,本人收集了2019年大部分前沿的网络相关链接,之后我会没周一更新一次(明年会开启2020的收集博客)有兴趣的朋友可以加微信:a944284742相互讨论技术。若是帮助到了你什么,一定要记得点赞!因为这是对我最大的鼓励。一、目标检测(1)......

2019-10-23 15:18:29 27413 31

原创 视觉工作项目-为后来的你,提供一份帮助!

下面是我所有工作的项目,每做一个项目,我都会分享过来!这些全是实实在在的工作项目,也就是说可以直接落实。每个项目带有百分百的指导与解读。只有你没有想到的,没有我讲不到的,细节到让你发抖,牛逼就吹到这里!如果有兴趣,可以添加微信:a944284742,一起交友讨论技术,这也是我个人的爱好,那么我们就开始吧!项目链接:人脸识别(1)人脸识别0-00:insightFace-目录-史上最全:ht......

2019-10-16 19:07:56 7653 1

原创 行人检测0-00:LFFD-目录-史上最新无死角解读

接下来,我会为大家无死角的解析LFFD(行人检测-注:该网络还可用于人脸检测),之前的文章,如下(以下是我工作的所有项目,每一个项目都是,我都做了百分百的详细解读,随着项目增多,为了方便不臃肿,所以给出以下链接)我都讲解得十分详细,这次本人讲解DG-Net(行人重识别ReID)当然也不会例外,只会有过之,而无不及。从数据收集,到网络训练迭代,源码解析,以及项目孵化落实着地,每一个环节我都会详细的...

2019-10-16 19:05:30 4529

原创 行人重识别0-00:DG-Net(ReID)-目录-史上最新无死角讲解

接下来,我会为大家解析解析DG-Net(行人重识别ReID),之前的文章,如人脸识别:每月深度2-0:insightFace-目录-史上最全以及图片生成与合成:GANS的世界1-0:stylegan-目录-史上最全我都讲解得十分详细,这次本人讲解DG-Net(行人重识别ReID)当然也不会例外,只会有过之,而无不及。从数据收集,再到网络训练迭代,以及项目孵化落实着地,每一个环节我都会详细的...

2019-10-08 09:06:46 11560 16

原创 风格迁移0-00:stylegan-目录-史上最全

接下来,我会为大家解析解析stylegan,之前的文章,如人脸识别:每月深度2-0:insightFace-目录-史上最全,我都讲解得十分详细,该次的stylegan,我不知道自己会讲解到什么地步,因为在我拿着作者的源码跑的时候,我发现源码的解读比论文还要更加困难,又因为stylegan不是我工作的项目,只是自己想透彻的了解一下GANS的相关网络,所以打算开始:GANS的世界,一系列的文章。...

2019-09-16 17:42:31 15204 1

原创 人脸识别0-00:insightFace-目录-史上最全

以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我们第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术。insightFace目录

2019-08-15 17:40:32 14538 5

原创 【强化学习理论基础-通用】(46)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 各种书籍、文献推导结果汇总,符号讲解统一不迷惘,一篇胜白篇

∇θvπst∑stk∈Sdπstk∗∑atk∈A∇θπatk∣stkqπstkatk(01*)∇θ​vπ​st​stk​∈S∑​dπ​stk​∗atk​∈A∑​∇θ​πatk​∣stk​qπ​stk​atk​01*上为mode-base形式策略梯度,在其基础上,通过不同方式凑出随机变量Stk。

2025-04-12 23:20:13 895

原创 【强化学习理论基础-通用】(45)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,多种推导方式,熟知来龙去脉,mode-free 形式

本人查阅了很多资料,确实如知乎所言,确实不同的教材、论文和博客教程中,给出了多种一眼看去截然不同的表达方式。个人也是阅读这篇几乎(推荐各位也阅读一下),对整个策略梯度才算有了比统一的理解,这里摘录一下大佬的内容,把常见策略梯度形式进行一个汇总。

2025-04-06 16:32:10 683

原创 【强化学习理论基础-通用】(44)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) 无死角推导,递归详细展开,符号注释,mode-base形式

该篇博客原本计划讲解的内容为确定性策略梯度 DPG(Deterministic Policy Gradient),其有一个很实用的优点,那就是适用于连续空间。【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解中首先介绍了两类策略目标函数形式如下:∇θJθE∇θln⁡πA∣SθqπSA(01)∇θ​JθE∇θ​lnπA∣Sθ))q。

2025-03-23 20:10:56 739

原创 【05.isaac-lab】最新从零无死角系列-(08) isaac-lab之框架剖析:使用工程模版训练自定义智能体,训练错误处理,初始训练正常

上一篇博客,从工程模版 IsaacLabExtensionTemplate 出发,首先把unitree(宇树) a1 机器狗 urdf 文件装换成 usd 文件。随后以最标准的方式构建对应的任务配置文件,以及资源配置模块 agentslab_assets,不过并没有把 a1 机器狗训练起来,所以该篇博客的目的就是把 a1.usd 加载且训练:

2025-03-18 21:59:42 920 1

原创 【强化学习理论基础-通用】(43)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,Off-policy 之核心 重要性采样(Importance sampling)

这里需要提及到的一点是重要性采样(Importance sampling)不仅仅适用于Actor-Critic或者蒙特卡洛算法,因为其主要原理是因为采样数据的分布与目标策略梯度不一样的而导致方差扩大的问题,即表示其适用于任何在某一分布下采样,估算另一分布(具体难获取)期望的情况,不过需要注意的是,这两个分布都必须是已知道的。

2025-03-16 16:16:58 898

原创 【05.isaac-lab】最新从零无死角系列-(07) isaac-lab之框架剖析:使用工程模版训练自定义智能体,urdf 转 usd,目录框架构建

前面博客05.isaac-lab】最新从零无死角系列-(02) isaac-lab 环境搭建,工程模板 IsaacLabExtensionTemplate,详细说明详细介绍如何搭建工程模板环境,且初步训练起来。或许有的朋友比较好奇,为什么要实用这样一个工程模版,直接在 isaac-lab 中进行源码的修改不好吗?是的,确实不好。首先来说, isaac-lab 是一个标准工程,若是修改了里面的源码, isaac-lab 更新时,或者通过 git 更新代码时,容易出现冲突。

2025-03-16 16:16:14 779

原创 【强化学习理论基础-通用】(42)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,Advantage(优势)引入,A2C 算法实现

<font color="blue">特殊示例: </font> 比如说一个游戏若是没有惩罚,只有奖励,那么做任何动作价值评估结果都为正:<br> 若是使用qt评估,会使得所有动作都会被优化,只是得分低的动作会被优化得小一些而已,显然其与得分高的动作在优化期间会存在一种拉扯,导致得分高的动作概率摇摆不定,或者黄曼提升。<br> 若是使用δt评估,只要高于平均水平的动作才会被优化,且该类动作会一直被优化提升,但是低于平均的动作,属于劣质动作,其被执行的概率会被减低,而不影响到那些高于平均水平的动作。

2025-03-08 21:17:45 262

原创 【强化学习理论基础-通用】(41)从零开始白话给你讲[数学原理]:Actor-Critic 基础系列,最简强化学习之演员-评论算法(QAC)

回顾:通过前面一系列博客,对于策略梯度(Policy Gradient) 已经有了一定了解。且在上一篇博客中详细介绍了策略梯度(Policy Gradient)与蒙特卡洛(Monte Carlo)组合的算法,该算法也被称呼为强化(REINFORCE)学习算法,不过并不是所谓的深度强化学习(Deep Reinforcement Learning),因为并没有使用到深度学习或者说神经网络,从这篇博客开始,将会把神经网络与策略梯度结合到一起,即组合成真正意义上的深度强化学习(Deep Reinforcement

2025-03-08 20:18:47 374

原创 【强化学习理论基础-通用】(40)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 梯度上升算法,初次引入真正意义的强化(REINFORCE)学习算法及伪代码讲解

该阶段都是基于 mode-base 的方式进行讲解,比如说贝尔曼公式、贝尔曼最优公式、蒙特卡洛算法等。其比较重要的一个特征就是关于概率部分需要提前已知或者预先定义,也就是所谓的数学建模。 了解 mode-base 之后,提前已知或者预先定义好随机变量的概率分布,是一个非常强的约束条件,为解决这个问题学习了随机梯度下降相关原理,接着在这个基础上学习时序差分TD算法以及值函数近似基于传统算法的 free-base 方式,其依然存在一定局限性,那就是需要自行选择或者构建好合适的特征函数,比如说 linea

2025-03-02 19:53:28 654

原创 【强化学习理论基础-通用】(39)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - 目标函数之统一形式、梯度期望形式推导求解

通过上一篇博客介绍知道,如果要优化一个动作决策策略π\piπ的参数θ\thetaθ,如何取构建目标函数。总的两说介绍了两种方式如下:上述三种表达式本质上式等价的,不过上一篇博客并没有给出百分百的详细推导,因为暂时来说,那些特别底层的数学知识推导并不是目前我关注的重点对象,若后续遇到某些问题,需要深刻理解相关知识点,本人会对其进行详细分析,并补充相关博客。对于梯度下降或者上升函数来说,定义好目标函数之后,最重要的就是对梯度的求解。因为只有求得梯度之后才能对策略π\piπ的参数θ\theta。

2025-03-02 13:06:27 735

原创 【强化学习理论基础-通用】(38)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) - Average state value 、Average reward 之目标函数

上一篇博客中提到,若想使用策略梯度(Policy Gradient)优化策略π\piπ的参数θ\thetaθ,首先要定义好衡量策略π\piπvˉπ∑s∈Sdπsvπsvˉπ0∑s∈Sd0svπs(01)vˉπ​s∈S∑​dπ​svπ​svˉπ0​s∈S∑​d0​svπ​s01rˉπ0≐∑s∈Sd0srπ。

2025-02-21 07:28:58 37

原创 【02.isaac-gym】最新从零无死角系列-(00) 目录最新无死角环境搭建与仿真模拟

郑重声明:该系列博客为本人。点击本人照片即可显示。

2025-02-20 11:34:07 791

原创 【强化学习理论基础-通用】(37)从零开始白话给你讲[数学原理]:策略梯度(Policy Gradient) -基础逻辑框架 Average state value 与 Average reward

若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权

2025-02-09 13:31:04 35

原创 【强化学习理论基础-通用】(36)从零开始白话给你讲[数学原理]:Deep Q-learning(DQN),Experience replay(经验回放),off-policy 伪代码与应用示例

若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!\color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权

2025-02-03 23:42:02 856

原创 【强化学习理论基础-通用】(35)从零开始白话给你讲[数学原理]:值函数近似,Deep Q-learning(DQN),神经网络提梯度求解之巧妙设计(双网络)

有的朋友可能觉得更加复杂,虽然两个神经网络的权重参数在更新貌似没有任何关联了,但是具体编程应该如何实现呢?两个神经网络的权重参数 $w_T$、$w_2$ 如何通过反向传播进行更新呢?不用着急,在后续详细分析分析过程中可以发现并没有想象的那么复杂。

2025-01-27 10:42:38 565

原创 【强化学习理论基础-通用】(34)从零开始白话给你讲[数学原理]:值函数近似,Sarsa 与 Q-learning 使用 function approximation 示例

虽然通过前面一系列博客虽然已经了解值函数近似的原理,且熟悉 linear function approximation(线性函数拟合) 特征向量(feature vector) 应该如何选取。不过总的来说,前面的推导或者说示例过程,为了简单易懂使用一维的方式引入,即对状态价值进行估计。总的来说,是为了理解其核心实现。该篇博客开始,将会开始通过值函数近似对 action(动作)价值评估进行拟合,相对于状态价值的拟合其要更加复杂一些,因为 action(动作) 价值评估需要考虑状态sss。

2025-01-22 21:11:51 640

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除