D_JQ-CSDN博客

原创 LaTeX论文修改一些实用功能

LaTeX在论文修改过程中，经常会用到高亮，修改，添加，删除等操作。

2023-09-08 13:57:57 907 1

摘要会决定论文的命运，有时候一些编辑仅仅读一下摘要就会决定送审还是拒稿，因此，摘要囊括了研究的目的、方法、内容和结论；摘要的关键词要恰当，可以提高引用概率。为什么做，想做什么？动机和问题陈述，为什么要关注这个问题，当前问题存在哪些研究的不足，如果当前问题很普遍，可以简单描述；怎么做，如何做研究方法；主要说明作者工作过程和所使用的方法，也应该包括各种限制条件等，在英文摘要中，过程和方法的阐述起着承前启后的作用。研究结果；结论；也就是结果的影响；

2022-12-24 19:40:12 2534

转载常用的神经网络函数及其选择

什么是激活函数（activation function）：就是人工神经网络中的神经元上运行的函数，负责将神经元的输入映射到输出端。一个节点的激活函数定义了该节点在给定输入或者输入集合下的输出。激活函数对于神经网络模型去学习、理解复杂和非线性的函数非常重要。将非线性特性引入到网络中。下图，输入inputs 通过加权求和之后，被作用在一个函数上，这个函数就是激活函数。为什么使用激活函数。

2022-12-11 21:34:25 1611

原创 0范数、1范数、2范数

列举常用的向量范数和矩阵范数的定义

2022-12-05 16:14:38 4834

原创读深度强化学习落地指南一书总结

reward的主要作用是将任务目标具体化和数值化，实现目标和算法之间的沟通，决定了agent最终能否学习到期望的技能，并直接影响算法的收敛速度和最终性能。reward负责引导神经网络中的决策相关因素并经过提炼后用于action的生成。如果主线回报比较稀疏，此时，只有主线reward是不行的；此时需要分解子目标，分别给予奖励或者惩罚，从而引导agent趋利避害从而提高主线的概率。此时，称为credit assignment。辅助reward一般都设置较小。避免有些reward过大，从而使其他reward被掩

2022-12-04 00:51:21 500

原创希腊字母表齐全

因为公式和变量命名的原因，经常会记错，敲下来，复习一遍。

2022-11-29 15:08:44 220

原创【各种空间角度】

deg : 角度 °rad : 弧度 1 rad = 57.29577951308232 deg提示：以下是本篇文章正文内容，下面案例可供参考。

2022-11-21 21:07:29 4470

转载强化学习实验绘图-使用seaborn(完全抄别人的)

seaborn 可以认为是matplotlib的升级版本，使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas.

2022-11-21 20:10:09 1669

原创鲁棒性、抗干扰性和强化学习泛化性的不同

当机器人走在坑洼不平的路上，且可以走的很好，则说明抗干扰性好；当机器人掉了一条腿，还能走的很好，则称之为鲁棒性好。干扰性外部，鲁棒性内部。

2022-11-20 15:29:10 1731

原创 Reinforcement Learning for UAV Attitude Control-强化学习的无人机姿态控制

自动驾驶系统通常由提供稳定性和控制的“内环”组成，而“外环”负责任务级别的目标，如航路点导航。无人机的自动驾驶系统主要采用比例-积分-导数(PID)控制系统实现，该系统在稳定环境中表现优异。然而，在不可预测和恶劣的环境中，需要更复杂的控制。智能飞行控制系统是一个活跃的研究领域，最近通过使用强化学习(RL)来解决PID控制的局限性，它在其他应用中已经取得了成功，如机器人。然而，以前的工作主要集中在在任务级控制器上使用RL。

2022-11-03 16:22:30 2571

原创【Smooth Exploration for Robotic Reinforcement Learning-平滑探索】

强化学习使机器人从实际环境交互中学习技能。实际上，应用于强化学习的非结构化的基于步长的探索，在仿真中非常成功，在实际机器人运动模式中导致抖动。由此产生的晃动行为的后果是探索能力差，甚至会对机器人造成损害。我们通过将状态依赖探索(SDE)[1]适应于当前的深度RL算法来解决这些问题。

2022-10-24 19:43:10 795

原创 Pycharm中一些常见小问题-进入不了虚拟环境

一、window系统下安装 pycharm，打开之后发现，terminal的显示既不是 base 环境，也不是虚拟环境，而是 windows powershell:使用 conda activate XXX，激活对应的虚拟环境也没有发挥作用。最终解决方案：保存之后发现，使用激活虚拟环境命令，conda activate XXX，成功进入虚拟环境。......

2022-06-22 17:20:57 5907 9

原创【Proximal Distilled Evolutionary Reinforcement Learning 的翻译】

强化学习在很多复杂环境中由于和 DNNs 结合取得了显著的效果，与此同时，遗传算法，作为RL 的竞争算法，在扩展到 DNNs 上解决一些挑战性任务的时候却鲜有成果。和二分法想法的不同的是，在现实世界中，进化和学习是不断相互作用的互补过程，最近提出的进化强化学习(ERL)框架已经证明了两种方法相结合对性能的共同好处。但是 ERL 没有充分解决遗传算法的可扩展问题。本文中，我们发现，这个问题的根源在于dnn的简单遗传编码和传统的生物变异算子不幸结合。当应用于这些编码时，标准算子是破坏

2022-06-22 12:59:50 344

原创【Pycharm只能打开一个工程文件】

Pycharm 以前可以打开多个工程项目，现在只可以打开一个：设置的问题，不知道什么时候把ask 界面关闭了，再也不显示

2022-06-17 09:17:21 3044

原创记录一个故障，ERROR: GLEW initalization error: Missing GL version，mujoco_py

安装mujoco-200和 mujoco-py==2.0.2.13，所有测试工作都已经完成，没有问题。1：测试mujoco200出现下跪小人图；2：测试mujoco-py的～/mujoco-py/examples，也没有问题；然后运行如下代码2：故障说明运行代码 ** CO-pderl-master (another copy)**，出现如下问题：点击Force Quit,退出，在run 工具栏显示如下信息3：解决方法在脚本环境中，使用如下命令，程序正常运行：程序可以正常运行，但是问题

2022-06-16 14:33:42 911 1