基于DQN和QMIX的控制延时算法

岂止是狼子野心

已于 2023-03-08 18:24:57 修改

阅读量434

点赞数

文章标签：深度学习机器学习 python tensorflow 人工智能 Powered by 金山文档

于 2023-03-07 21:32:12 首次发布

本文链接：https://blog.csdn.net/Faith_Plus/article/details/129390026

版权

ChatGPT

从ChatGPT中询问得到一份简单的伪代码，如下：

1. 初始化经验回放缓存区 D，Q 网络 Q(s,a;θ) 和目标网络 Q'(s,a;θ')
2. 重复执行以下步骤：
   a. 根据 ε-greedy 策略选择行动 a_t
   b. 执行行动 a_t，得到下一个状态 s_{t+1} 和立即奖励 r_t
   c. 将转移数据 (s_t, a_t, r_t, s_{t+1}) 存储到经验回放缓存区 D 中
   d. 从 D 中随机采样一个小批量的经验数据 (s_i, a_i, r_i, s_{i+1}) 进行学习：
      i. 对于每个经验数据 (s_i, a_i, r_i, s_{i+1})，计算目标 Q 值 target：
         1. 如果 s_{i+1} 是终止状态，则 target = r_i
         2. 否则，选择一个时间步长 k，计算延迟奖励信号 R_{i,i+k} = r_{i+1} + γ^k max_a Q'(s_{i+k},a;θ')
            target = R_{i,i+k} + γ^k max_a Q(s_{i+k},a;θ)
      ii. 计算当前状态行动对的 Q 值：Q(s_i, a_i;θ)
      iii. 计算误差：error = target - Q(s_i, a_i;θ)
      iv. 使用均方误差损失函数对 Q 网络的参数 θ 进行梯度下降更新：
         θ = θ + α * ∇_θ Q(s_i, a_i;θ) * error
   e. 每 C 步将 Q 网络的参数 θ 复制到目标网络的参数 θ'

DQNPrioritizedReplay在平台中的使用

算法中名词解释

prioritized

中文意思：优先处理-ed

这是在DQNPrioritizedReplay中特殊的操作，经验池的选取不再是随机选取，而是使用某种方式来分辨不同经验的优先级。

Tensorflow用法解释

TensorFlow与我们正常的编程思维略有不同：TensorFlow中的语句不会立即执行；而是等到开启会话session的时候，才会执行session.run()中的语句。如果run中涉及到其他的节点，也会执行到。

Tesorflow模型中的所有的节点都是可以视为运算操作op或tensor

sess

tf.Session()

tf.Session()：创建一个会话，当上下文管理器退出时会话关闭和资源释放自动完成。(with后会关闭)

tf.Session().as_default()：创建一个默认会话，当上下文管理器退出时会话没有关闭，还可以通过调用会话进行run()和eval()操作。（with后不会关闭，可以调用sess.close()关闭，如下：）

import tensorflow as tf
a = tf.constant(1.0)
b = tf.constant(2.0)
with tf.Session().as_default() as sess:
   print(a.eval())  
   sess.close() # 关闭默认会话
print(b.eval(session=sess))# 此处会报错

Sess.run()

简单来说，就是运行各种节点。其中参数为：

run(fetches,   # 需要操作的张量
    feed_dict=None,   # 替换图中的某个tensor的值或设置graph的输入值。
    options=None,   
    run_metadata=None)

feed_dict不接受tensor格式的数据，只能使用普通格式传入。

显示变量

print(sess.run(state))

初始化变量

sess.run(tf.global_variables_initializer())

更改会话中变量的值

import tensorflow as tf
y = tf.Variable(1)
b = tf.identity(y)
with tf.Session() as sess:
    tf.global_variables_initializer().run()
    print(sess.run(b,feed_dict={y:3})) #使用3 替换掉
    #tf.Variable(1)的输出结果，所以打印出来3 
    #feed_dict{y.name:3} 和上面写法等价
 
    print(sess.run(b))  #由于feed只在调用他的方法范围内有效，所以这个打印的结果是 1

给占位符赋值

import tensorflow as tf
import numpy as np
 
input1 = tf.placeholder(tf.float32)
input2 = tf.placeholder(tf.float32)
 
output = tf.multiply(input1, input2)
 
with tf.Session() as sess:
    print(sess.run(output, feed_dict = {input1:[3.], input2: [4.]}))

tf.add()和tf.add_n（）

tf.add（）

tf.math.add(
    x, y, name=None
)

如果x和y维数相同，则直接相加，如果维数不同则会朝着维度较大的变量，进行广播：

import tensorflow as tf
a = tf.constant([[3, 5]]) # 广播为[[3, 5], [3, 5]]
b = tf.constant([[1, 6], [2, 9]])
c = tf.add(a, b)
sess = tf.Session()
print sess.run(c)
输出：
[[ 4 11]
 [ 5 14]]
 
import tensorflow as tf
a = tf.constant([[3], [5]]) # 广播为[[3, 3], [5, 5]]
b = tf.constant([[1, 6], [2, 9]])
c = tf.add(a, b)
sess = tf.Session()
print sess.run(c)
输出：
[[ 4  9]     【3+1，3+9】
 [ 7 14]]    【5+2，5+9】

tf.add_n()

使用tf.add_n则可以进行多个tensor（张量）的相加，但不可以广播，如下：

import tensorflow as tf
a = tf.constant([[3, 1], [5, 1]]) 
b = tf.constant([[1, 6], [2, 9]])
c = tf.add_n([a, b, a])
sess = tf.Session()
print sess.run(c)
输出：
[[ 7  8]
 [12 11]]

tf.constant

这是用来创建常量的函数。内部为：

tf.constant(
    value,
    dtype=None, # 数据类型，一般可以是tf.float32, tf.float64
    shape=None, # 张量的“形状”，即维数以及每一维的大小 张量(torch.Tensor)理解为二维数组的堆叠
    #[[-1 -1 -1]
    # [-1 -1 -1]]是一个shape=[2,3]的张量
    name='Const',# 字符串
    verify_shape=False # 如果修改为True的话表示检查value的形状与shape是否相符，如果不符会报错。
)

使用.eval()得到value的返回值，但是使用的时候必须创建一个话题sess(),如下：

sess=tf.Session()
with sess.as_default():
    print('结果是：', tensor.eval())

tf.Variable

用于创建变量，重名系统自行处理，变量是一个特殊的张量，其可以是任意的形状和类型的张量。语法格式如下：

tf.Variable.init(initial_value, 
                    trainable=True, 
                    collections=None, 
                    validate_shape=True,
                    name=None)
)

涉及到变量的相关操作必须通过session会话控制。在tensorflow的世界里变量的定义和初始化是被分开的。

而初始化变量使用tf.global_variables_initializer()用于初始化所有变量；w.initializer用于初始化单个变量。

import tensorflow as tf

w = tf.Variable([6,8,6])    #创建变量w
print(w)    #查看变量的shape,而不是值。
with tf.Session() as sess:
    sess.run(w.initializer)        #初始化变量
    print(sess.run(w))    #查看变量的值

#运行结果：
<tf.Variable 'Variable:0' shape=(3,) dtype=int32_ref>
[6 8 6]

获取变量（如果没有则创建）使用tf.get_variable ()，重名报错。

显示变量

w = tf.Variable([6,8,6])    #创建变量w
print(sess.run(w))
#运行结果：
[6 8 6]

tf.identity

tf.identity是tensorflow定义变量的一种方法，用变量来定义变量：

import tensorflow as tf
x = tf.Variable(-1.0)
y = tf.identity(x) # 此时x和y只是值相同，而用x=y则两个代表同一个东西，只是标签

tf.assign

import tensorflow as tf 

ref_a = tf.Variable(tf.constant(1))
ref_b = tf.Variable(tf.constant(2))
update = tf.assign(ref_a, 10)
# ref_a = tf.assign(ref_a, 10) 这样则不需要sess.run(update)就可以完成赋值
ref_sum = tf.add(ref_a, ref_b)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    sess.run(update)  # 唯一修改的地方
    print(sess.run(ref_sum))
------------------------------------------------------
输出结果：12

只有当sess.run(update)后，ref才会被赋值为new_value,否则ref的值不变。

tf.placeholder

函数形式

tf.placeholder(
    dtype, # 数据类型。常用的是tf.float32,tf.float64等数值类型
    shape=None, # 数据形状。默认是None，就是一维值，也可以是多维（比如[2,3], [None, 3]表示列是3，行不定）
    name=None
)

作用是：是在神经网络构建graph的时候在模型中的占位，在会话中，运行模型的时候通过feed_dict()函数向占位符喂入数据。

import tensorflow as tf
import numpy as np
 
input1 = tf.placeholder(tf.float32)
input2 = tf.placeholder(tf.float32)
 
output = tf.multiply(input1, input2)
 
with tf.Session() as sess:
    print(sess.run(output, feed_dict = {input1:[3.], input2: [4.]}))

tf.get_collection

从一个集合中取出变量。

 tf.get_collection(
    key,
    scope=None
)

tf.variable_scope

可以让变量有相同的命名即共享变量，包括tf.get_variable得到的变量，还有tf.Variable变量

它返回的是一个用于定义创建variable(层)的op的上下文管理器。

可变范围允许创建新的variable并分享已创建的variable，同时提供检查，不会意外创建或共享。

with tf.variable_scope("foo"):
    with tf.variable_scope("bar"):
        v = tf.get_variable("v", [1])
assert v.name == "foo/bar/v:0"

此时v这个变量的作用范围就更新到了foo/bar，在其他地方可以使用同样名字的变量。

tf.nn.conv2d

这是一个卷积函数，上述链接的例子是以图像为例，具体使用方法见链接内容。

tf.nn.conv2d (input,
        filter, 
        strides, 
        padding,
        use_cudnn_on_gpu=None, 
        data_format=None, 
        name=None
)

tf.nn.relu

线性整流函数，又称修正线性单元，将输入小于0的值幅值为0，输入大于0的值不变。

tf.matmul

matmul(
    a,
    b,
    transpose_a=False,
    transpose_b=False,
    adjoint_a=False,
    adjoint_b=False,
    a_is_sparse=False,
    b_is_sparse=False,
    name=None
)

将矩阵 a 乘以矩阵 b,生成a * b

tf.GraphKeys

tf.GraphKeys.GLOBAL_VARIABLES：

返回一个字符串"variables"，表示使用tf.get_variable()或者tf.Variable()创建的变量都会放入名为"variables"的集合。我们熟悉的tf.global_variables_initializer()就是初始化这个集合内的Variables。

tf.reduce_sum

按一定方式计算张量中元素之和

tf.reduce_sum(
    input_tensor, 
    axis=None,  # 指定按哪个维度进行加和，默认将所有元素进行加和；
    keepdims=None, # 默认为False，表示不维持原来张量的维度，反之维持原张量维度；
    name=None
)

tf.reduce_mean

tf.reduce_mean 函数用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的的平均值，主要用作降维或者计算tensor（图像）的平均值。

reduce_mean(input_tensor,
                axis=None,
                keep_dims=False,
                name=None,
                reduction_indices=None)

tf.squared_difference

计算张量 x、y 对应元素差的平方,每个位置分别减去后平方

squared_difference(
    x,
    y,
    name=None
)

tf.cast

将x的数据格式转化成dtype数据类型.例如，原来x的数据格式是bool，

那么将其转化成float以后，就能够将其转化成0和1的序列。反之也可以

cast(
    x,
    dtype,
    name=None
)

tf.train.RMSPropOptimizer

RMSprop优化算法

tf.concat

用来拼接张量

  t1 = [[1, 2, 3], [4, 5, 6]]
  t2 = [[7, 8, 9], [10, 11, 12]]
  tf.concat([t1, t2], 0)  # [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
  tf.concat([t1, t2], 1)  # [[1, 2, 3, 7, 8, 9], [4, 5, 6, 10, 11, 12]]
 
  # tensor t3 with shape [2, 3]
  # tensor t4 with shape [2, 3]
  tf.shape(tf.concat([t3, t4], 0))  # [4, 3]
  tf.shape(tf.concat([t3, t4], 1))  # [2, 6]

tf.layers.dense

全连接层相当于添加一个层

tf.layers.dense(

    inputs,# 输入该网络层的数据

    units,# 输出的维度大小，改变inputs的最后一维

    activation=None, # 激活函数，即神经网络的非线性变化

    use_bias=True,# 使用bias为True（默认使用），不用bias改成False即可，是否使用偏置项

    kernel_initializer=None,  ##卷积核的初始化器

    bias_initializer=tf.zeros_initializer(),  ##偏置项的初始化器，默认初始化为0

    kernel_regularizer=None,    ##卷积核的正则化，可选

    bias_regularizer=None,    ##偏置项的正则化，可选

    activity_regularizer=None,   ##输出的正则化函数

    kernel_constraint=None,   

    bias_constraint=None,

    trainable=True,

    name=None,  ##层的名字

    reuse=None  ##是否重复使用参数

)

tf.nn.softmax

tf.nn.softmax(logits,
            axis=None,
            name=None,
            dim=None)

输入: 全连接层（往往是模型的最后一层）的值

输出: 归一化的值，含义是属于该位置的概率;

python用法解释

with .. as..

with expression [as var]:

当expression返回的对象是支持环境管理协议的时候，就可以使用with。

as var是可选的，如果不使用as var，expression返回对象将被丢弃，如果使用as var，就会将expression的返回对象赋值给变量var。也就是接下来一部分的代码可以使用var变量。

推出with则关闭var。

简单来说，就是with开一个环境用as后的来代表，结束with自动关闭环境。

assert

在出现错误条件时就程序崩溃，后边加的是需要满足的内容，不满足则崩溃。

def  zero(s):
    a = int(s)
    assert a > 0,"a超出范围"   #这句的意思：如果a确实大于0，程序正常往下运行
    return a

zero("-2")  #但是如果a是小于0的，程序会抛出AssertionError错误，报错为参数内容“a超出范围”

[:,:]

arr[ : , : ]表示的是对数组中不同维度的索引，若存在关键字None则表示维度扩充。

arr1 = np.array([1, 2, 3])
arr2 = np.array([1, 2, 3])
arr1[:,None]
# 则arr1变成了[  [1],[2],[3]  ] ,shape(3,1)
arr2[None,:]
# 则arr1变成了[  [1,2,3]  ] ,shape(1,3)

hasattr

如果对象有该属性返回 True，否则返回 False。

hasattr(object ,# 对象
         name # 属性名
)

岂止是狼子野心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于DQN和QMIX的控制延时算法

在使用DQN搭建控制延时强化学习算法中遇到的问题和解决方法以及一些基本的tensorflow、python等基础知识。
复制链接

扫一扫