Vulcan_Q-CSDN博客

**reset()函数返回的是一个array类型以及其中数据的type！模拟游戏进行学习任务。因此需要将observation指定为真正需要的array信息即可,得到的的变量observation类型与Agent存储时的。因此怀疑返回的observation有问题，于是通过。报错信息提示为数据维度不对应，也即最初通过。在强化学习DQN网络代码实现过程中，针对。

2022-10-27 16:14:25 4021 3

原创【从RL到DRL】深度强化学习基础（五）离散控制与连续控制——确定策略梯度方法（DPG）、使用随机策略进行连续控制

本文为深度强化学习基础的第五篇，介绍了从离散控制进阶到连续控制，分别介绍了确定策略梯度方法进行连续控制，以及使用随机策略进行连续控制

2022-10-22 11:29:49 1432

原创【从RL到DRL】深度强化学习基础（四）——策略梯度中的Baseline，Reinforce与A2C的对比

本文Hi胜读强化学习基础的第四篇博客，主要学习记录了策略梯度中使用Baseline方法来降低动作价值函数的方差，提高收敛速度；并介绍了A2C方法，分析了其与Reinforce的联系与差别。

2022-10-22 00:16:55 1119

原创【从RL到DRL】深度强化学习基础（三）——蒙特卡洛算法、TD算法改进：经验回放与高估问题的优化——Target网络与Double DQN，DQN结构改进——Dueling网络

本文为深度强化学习的第三篇，承接上篇介绍了蒙特卡洛算法的应用，并结合TD算法的具体缺点，从两个角度介绍了两个改进方案——经验回放与高估问题优化，最后介绍了对DQN网络结构的优化——Dueling Network 结构

2022-10-19 19:25:34 1612

原创【从RL到DRL】深度强化学习基础（二）——Actor-Critic Methods中策略与价值网络机构以及算法迭代过程、实例分析——AlphaGo的训练过程、蒙特卡洛树初步

本文是深度强化学习基础的第二篇，从AC算法的角度接入，并介绍了AlphaGo的训练流程以及其中涉及到的相关知识。

2022-10-15 10:28:51 1523

原创【从RL到DRL】深度强化学习基础（一）——基本概念、价值学习（DQN与TD算法）、策略学习与策略梯度

本篇为深度强化学习基础的第一篇，回顾并介绍了强化学习中的一些基本概念，并初步阐释了神经网络在策略学习与价值学习中的应用。

2022-10-14 00:09:38 1703

原创【从RL到DRL】强化学习基础（三）——动态规划、小型网格世界中的随机策略评估

本文为强化学习基础的第三篇内容，主要记录了基于动态规划方法求解贝尔曼期望方程的迭代算法，以及相应的迭代策略评估、策略迭代、价值迭代内容

2022-10-08 00:05:41 1311

原创【从RL到DRL】强化学习基础（二）——马尔可夫决策过程与相关贝尔曼方程

本文为强化学习基础的第二篇内容，主要围绕马尔可夫性质与马尔可夫奖励、决策过程展开，并通过回溯图等形式深入分析了贝尔曼方程与贝尔曼最优方程的组成与意义

2022-10-04 16:47:42 2227

原创【从RL到DRL】强化学习基础（一）——强化学习基本介绍、基本的智能体概念

本文开始入门学习强化学习，主要介绍了强化学习本身的一些特点以及与智能体分类、基本组成相关的一些基本概念

2022-10-01 09:40:46 1790

原创 Unitree A1 Motor新版SDK在lys_ws工作空间配置移植

针对lys_ws的新版Unitree_A1_motor SDK移植步骤详解

2022-09-30 01:20:16 966

原创人工智能原理自学（五）——序列依赖问题、循环神经网络与LSTM网络自然语言处理实践

人工智能原理入门的最后一篇内容，主要实现了基于循环神经网络的语言处理过程，初步介绍了经典RNN网络结构以及LSTM网络结构

2022-09-29 16:58:51 1018

原创人工智能原理自学（四）——Keras手写体识别实验、卷积神经网络入门

人工智能原理自学（四）——Keras手写体识别实验、卷积神经网络入门

2022-09-25 13:02:50 1625 1

原创人工智能原理自学笔记（三）——Keras入门，搭建简单的神经网络框架

Keras框架就如同机器学习里的高级语言，实现了对机器学习神经网络底层复杂的数学运算的封装，我们可以轻松地通过它提供的各种上层接口搭建模型。

2022-09-25 08:49:59 393

原创【计算机三级嵌入式】考试自学笔记（四）——I/O接口与设备、典型嵌入式处理芯片：S3C2410以及嵌入式系统的外部通信接口

【计算机三级嵌入式】考试自学笔记（四）——I/O接口与设备、典型嵌入式处理芯片：S3C2410以及嵌入式系统的外部通信接口

2022-09-23 13:35:10 3363

原创【计算机三级嵌入式】考试自学笔记（三）——嵌入式系统硬件组成、嵌入式处理芯片以及存储器介绍

本篇为计算机三级嵌入式备考自学笔记，主要介绍了常见的嵌入式系统的硬件结构组成，并介绍了嵌入式系统存储器的种类、区别于应用

2022-09-22 00:25:29 3340

原创【计算机三级嵌入式】考前学习笔记（二）——基本寻址方式、ARM指令集与伪指令介绍

备考计算机三级嵌入式时的一些笔记，本篇主要介绍ARM指令相关的内容，以及与指令运行相关的ARM寻址方式等内容

2022-09-21 20:57:17 1385

原创人工智能原理自学（二）——激活函数、隐藏层神经元以及高维空间

本文为人工智能原理自学笔记第二篇，主要学习实践了激活函数Sigmoid函数以及理解了隐藏层神经元的概念，并初步接触了高维空间

2022-09-15 17:06:53 1086 1

原创人工智能原理自学(一)——Rosenblatt感知器模型与梯度下降算法

B站课程自学人工智能原理入门，主要为个人学习过程的笔记沉淀以及代码实践

2022-09-14 00:20:25 821

原创【材料力学】基于Matlab APP Designer 开发的绘制静定梁剪力、弯矩与挠曲线的软件

这篇博客算是对上一篇绘制挠曲线博客的续写，之前编写的绘制挠曲线的程序还是有一些漏洞和缺点的（说白了就是有点烂），此外也仅仅可以求算铰支梁在受到集中力或者是集中力偶矩时的挠度。所以这次干脆一不做二不休（其实是懒得再去改那篇博客），在我之前程序的基础上，完成了之前缺失的悬臂梁以及均布载荷两部分内容，并将最后的核心代码做成了UI，方便使用，供大家交流参考。但是从程序设计的角度来看，这样的分类其实是有冗余与欠妥的。对于简支梁与...

2022-07-09 11:16:38 5783 5

原创材料力学：使用matlab绘制铰支梁在多个集中力、集中力偶矩作用下的挠曲线

梁的弯曲变形时材料力学中十分重要的研究内容，笔者自行设计了matlab代码以求算通过铰支座固定的梁，在多个外加集中力或是集中力偶矩的作用下，绘制梁统一的挠曲线（悬臂梁与集中载荷功能后续开发）。如有错误，欢迎交流指正。...

2022-05-31 19:42:45 5173 5

基于Matlab Designer制作的信号生成、叠加与检测器

主要分为了三个控制区模块，在信号生成区可以通过键盘输入或是滑块调节的方式改变输入信号的频率、赋值以及初相，此外目前设计了白噪声、正弦波、方波以及正弦波四种类型的信号输入。

2022-10-30

材料力学基于Matlab 开发的绘制静定梁剪力、弯矩与挠曲线的软件

主要是一款PC端软件，使用Matlab2021b APP Designer开发，软件可以自动绘制在多种、多个外载荷的叠加作用下，梁最终的剪力、弯矩以及挠曲线图像，并且可以求算出剪力、弯矩、转角以及挠度的最值情况以及相应的位置信息。

2022-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人