小柴柴是也-CSDN博客

原创 MADDPG中环境怎么配置，multiagent包解决

一、环境提供MADDPG： https://github.com/starry-sky6688/MADDPG (pytorch版本)MPE环境：https://github.com/openai/multiagent-particle-envs论文：《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》https://arxiv.org/abs/1706.0227二、环境配置过程首先下载MPE环境，然后解

2022-04-14 17:24:56 4286 6

原创 latex学习篇【三】论文中的表格技巧Q&A

latex中表格是一个大头和公式一样，推荐一个好用的工具！https://www.tablesgenerator.com/latex_tables这个网站可以在线编辑表格，直接生成代码，粘贴过去就可以啦！！！但是关于细节还有很多要调整的。前前后后改了很多，都是现场百度的，悔恨没及时记下来，现在想不起来改了些啥了，先这样吧...

2022-04-14 16:06:01 1043

原创 LATEX学习篇【二】：论文中的公式技巧Q&A

一些latex公式编辑技巧，符号大全和好用的工具

2022-04-14 11:35:27 617

原创 latex学习篇【一】论文中的图片技巧Q&A

LATEX专栏第一篇：在Latex模板中引入各种图片的问题。...

2022-04-14 11:20:03 1061

原创 yaml报错TypeError: load() missing 1 required positional argument: ‘Loader‘

添加一下命令即可：我的操作：return yaml.load(config)改为return yaml.full_load(config)问题完美解决

2021-11-18 20:37:07 1044

原创 ValueError( Shape(4, ?, 1, 20) and () are incompatible

报错：解决：将文件中的 return tf.concat(axis, tensors)改为： return tf.concat(tensors, axis)问题完美解决

2021-11-09 10:47:32 389

原创 No module named ‘main.common‘； ‘main‘ is not a package

今天在调通代码时遇到一个难缠的bug,源代码如下：from .common import _FLOATX, _EPSILON结果报错：问题原因：也就是说，这是相对导入，只有在父模块在当前运行环境中被导入过才能用。这揭示了报错的缘由，相对导入基于当前模块的名称，因为主模块总被命名为"main"。当我们从主模块启动时，Python就识图用"main"替换"."，于是那句话实际便成了from main.commom import common，这当然是找不到的。我的目录：解决方法：将引用语

2021-11-09 10:30:28 1468

原创 module ‘tensorflow_core.compat.v1‘ has no attribute ‘contrib‘问题的完美解决

问题描述：Instructions for updating:Use keras.layers.Dense instead.Traceback (most recent call last): File "run_cnn.py", line 200, in <module> model = TextCNN(config) File "D:\MY DATA\学习资料\研究生\深度学习\text-classification-cnn-rnn-master\cnn_model.p

2021-09-14 21:33:27 3118

原创【强化学习】一文带你理清强化学习

一文带你理清强化学习这个图描述的比较清晰，蓝框里是整个强化学习的一些概念基础了，橙色是一些学习方法，可以选择性的选择一些，废话不多说，接下来就按照这个路线图展开。马尔可夫链马尔科夫链：用来描述智能体和环境互动的过程...

2021-09-09 22:39:23 1203

原创从拉格朗日乘数法到KKT条件

从拉格朗日乘数法到KKT条件最近看论文遇到了Karush–Kuhn–Tucker （KKT）条件，想搞清楚这是个什么东东，因此就把这个东西认真学习一下并且分享出来，希望对大家有用。学习KKT就不得不先学习一下拉格朗日乘数法，于是不得不重新翻出被记忆尘封的高数~~1.拉格朗日乘数法在数学最优问题中，拉格朗日乘数法是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题，其变量不受任何约束。这种方法引入

2021-06-18 19:16:57 269

原创【强化学习】可视化学习tensorboard

tensorflow定义了一个图结构：代码：a = tf.constant(3.0, name="a")b = tf.constant(4.0, name="b")c = tf.add(a, b, name="add")var = tf.Variable(tf.random_normal([2, 3], mean=0.0, stddev=1.0), name="variable")print(a, var)# 必须做一步显示的初始化opinit_op = tf.global_v

2021-05-21 14:53:10 1115

原创【强化学习】PPO代码注释版本

# PPO主要通过限制新旧策略的比率，那些远离旧策略的改变不会发生# import tensorflow as tfimport tensorflow.compat.v1 as tftf.compat.v1.disable_eager_execution()import numpy as npimport matplotlib.pyplot as pltimport gym# 定义一些超级参量EP_MAX = 1000 # 最大步数EP_LEN = 200GAMMA = 0.9

2021-05-21 11:23:30 3121 8

原创【强化学习】A3C代码注释版本

########################################### A3C做出的改进：# 解决AC难以收敛的问题# 不一样的地方：#import threading# import tensorflow as tfimport tensorflow.compat.v1 as tftf.compat.v1.disable_eager_execution()import numpy as npimport gymimport osimport shutilimp

2021-05-21 11:21:29 1125

原创【强化学习】A3C原理

先解释一下什么叫异步、什么叫并发：**异步：**和同步相对，同步是顺序执行，而异步是彼此独立，在等待某个事件的过程中继续做自己的事，不要等待这一事件完成后再工作。线程是实现异步的一个方式，异步是让调用方法的主线程不需要同步等待另一个线程的完成，从而让主线程干其他事情。**并发：**同一时间段有几个程序都处于已经启动到运行完毕之间，并且这几个程序都在同一个处理机上运行，并发的两种关系是同步和互斥。**多线程：**多线程是进程中并发运行的一段代码，能够实现线程之间的切换执行；**异步和多线程：**不是同

2021-05-21 11:20:16 8832 1

原创【强化学习】AC注释版本

## 强化学习 Actor-critic# 和PG比起来主要的变化：# 评估点由状态价值变成了TD_error,网络形式变了# learn函数长得不一样# action有一个优化函数，优化的是价值函数，希望最大化期望的reward，Critic网络也有一个reward，希望最小化现实和估计的误差（即td——error)# Actor使用我们上一节讲到的策略函数，负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数，负责评估Actor的表现，并指导Actor下一阶段的

2021-05-21 11:13:45 358

原创【强化学习】Actor Critic原理

PG算法是一种只基于policy的一种方法，存在的问题就是该算法需要完整的状态序列，且单独对策略函数进行迭代更新，不太容易收敛。Actor-critic方法呢是一种将策略(Policy Based)和价值(Value Based)相结合的方法。下面继续来理一下AC方法的思路！Actor-Critic算法包括两部分，Actor网络使用PG里的策略函数，负责生成动作，和环境交互，Critic网络使用价值函数，负责评估Actor的表现，并指导Actor下一阶段的动作。PG中我们用的是蒙特卡罗法来计算每一步

2021-05-21 11:12:22 562

原创【强化学习】Policy Gradients代码注释版本

import gym #import tensorflow as tfimport numpy as np# Hyper ParametersGAMMA = 0.95 # discount factor 折扣因子LEARNING_RATE = 0.01 # 学习率class Policy_Gradient(): # 咱们来搞一下大头！ def __init__(self, env): # 初始化 # 先初始化一些参量 self.

2021-05-21 11:09:16 334

原创【强化学习】Policy Gradient原理

1.Policy Gradient和DQN系列强化算法最大的区别在于：DQN系列基于Value，也就是说执行完所有的动作并保存所得到的价值，根据这些价值计算出最优价值函数，并以此选择动作，最终获得一个特定的策略。Policy Gradient基于策略来选择动作，Value Based方法中将动作价值函数进行近似，引入了一个动作价值函数q^，状态s和动作a为输入，价值函数输出，得到近似的动作价值。PG中采用类似的思路，将策略表示成一个连续的函数之后，使用连续函数的优化方法寻找最优策略。2.Policy

2021-05-21 11:05:55 518

原创一些python函数及其用法

1.np.ravel（）方法ravel是将数组维度拉成一维数组，也就是将矩阵向量化x = np.array{ [ [ 1 , 2 , 3 ] , [ 4 , 5 , 6 ] ] }print(np.ravel(x))输出[ 1 2 3 4 5 6 ]2.b = a[np.newaxis,:]import numpy as npa = np.arange(0, 10)print('a.shape',a.shape)print('a',a)b = a[np.newaxis,:]c =

2021-04-26 11:23:30 199

原创 Python列表推导式

列表推导式是Python构建列表（list）的一种快捷方式,可以使用简洁的代码就创建出一个列表，即循环创建列表.for可以用来创建列表，列表推导式就相当于是for循环的简化版1. 最简单的情况values = [10, 21, 5, 7, 12]squares = []for x in values: squares.append(x**2)print squares运行结果：[100, 441, 25, 49, 144]可以变成values = [10, 21, 5, 7

2021-04-16 21:22:59 156 2

原创 Opnet入门

一、opnet快速入门1.系统界面&文件菜单说明2.常用文件名后缀及描述3.Opnet建模层次用户只有一种节点域模型三、 OPNET Modeler网络仿真机制1.事件的属性每次点击next会出现以下界面：2.事件的执行调度型：按照正常程序调度事件强制性：事件比较特殊，主动强制仿真核心停下来执行这个事件安静型：和强制型的区别是，也需要处理这个事件，但没必要把当前的任务停下来3.事件的分类...

2021-04-13 17:30:15 12601 3

原创博弈论与纳什均衡

三十分钟理解博弈论“纳什均衡” – Nash Equilibriumhttps://blog.csdn.net/xbinworld/article/details/50932559纳什均衡(Nash equilibrium)及经典案例https://blog.csdn.net/u010420283/article/details/83927742论文：[1] 刘帅军. 卫星通信系统中动态资源管理技术研究[J]. 北京: 北京邮电大学, 2018.[2] 移动卫星通信网络边缘计算架构研究.张玉迪

2021-03-19 11:33:19 743

原创卫星通信系统概述

卫星通信系统指通过在轨人造卫星作为中继站对无线电信号进行转发，实现地面及空间等用户之间信息传输的系统。卫星通信系统组成包括空间段及地面段，系统组成如图所示。其中空间段主要指在轨卫星、对在轨卫星进行操控的地面站，这些地面站主要实现跟踪、遥测、遥控等功能，提供必要的卫星管理及控制以保证卫星正常在轨运行。地面段主要指通过卫星进行通信的用户终端，包括固定终端、机动终端和移动终端。其中，固定终端包括私营网络中使用的甚小口径终端（Very Small Aperature Terminal, VSAT）、安装于屋顶用于接

2021-01-23 21:11:31 17609 1

原创【强化学习】一些网站整理

莫烦教程https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/Deep-Q-Network 学习笔记https://www.cnblogs.com/cjnmy36723/p/7017549.html强化学习和自适应控制https://www.cnblogs.com/qpswwww/p/9337740.html贪心算法https://blog.csdn.net/gaoruowen1/article/detail

2021-01-10 12:16:38 614

原创 Java学习第三章数组（三）排序算法

**Java学习第三章数组（三）排序算法**主要内容：排序算法、排序算法横向比较、Arrays工具类的使用、数组常见异常1.数组中涉及到的常见算法：排序算法1.1 排序算法分类：内部排序和外部排序1.2 十大内部排序算法冒泡排序、快速排序：会手写堆排序、归并排序：知道排序思想2.冒泡排序：实现过程：public class BubbleSortTest { public static void main(String[] args) {

2021-01-06 17:54:20 111

原创 Java学习第三章数组（二）多维数组

多维数组的使用由数组构成的数组二维数组：① 二维数组的声明和初始化② 如何调用数组的指定位置的元素③ 如何获取数组的长度④ 如何遍历数组⑤ 数组元素的默认初始化值：见ArrayTest1.java数组元素是整形：0数组元素是浮点型：0.0数组元素是char型：0或‘\u0000’数组元素是布尔型：false数组元素是引用数据类型时：null⑥ 数组的内存解析：见ArrayTest1.java① 二维数组的声明int[] arr = new int[]{1,2,3}; /

2020-12-29 20:50:34 207

原创我的2020（年终总结）

我的20202020对每个人来说可能都是极不平凡的一年，对我尤其是。这一年我整个的人心境发生了极大的变化。总结来说，有这么几件大事：复试、毕设、大学毕业、研究生开学、分手、再脱单、疫情在家。今天坐在实验室也不知道该干点什么，自从考完试就有一种放假既视感，现在在等着被老师叫去干活，趁这个机会把我这一年复盘一下吧！① **复试。**去年的主旋律是考研，准确来讲应该是考研初试，今年才是接收宣判的主战场。二月份收到成绩，五月份复试，中间找了三个月的调剂，同时积极准备复试，中间经历了各种各样的波折，各种各样的委屈

2020-12-29 17:01:43 1228 3

c++八数码问题

空空如也