![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 84
西部点心王
I have a big plan!Trust me!!!!
展开
-
DNQ(2)
title: DQN(Deep Q Network)—(2)date: 2021-05-08 11:41:04tags:PythonReinforcement Learningcategories: 强化学习续DQN上图为整个神经网络的结构图,很明显可以看到神经网络包含2个网络结构—target_net和eval_net。eval_net是一个实时神经网络,每次进行强化学习的过程,它的参数都会更新训练,所以它是一个实时神经网络。target_net是一个延迟神经网络,它的网络结构.原创 2021-05-14 20:01:49 · 1384 阅读 · 0 评论 -
DNQ(1)
什么是DQNDQN(Deep Q Network)是一种用Q Learing和神经网络结合的一种强化学习的方法,相比于传统的Q Learning运用了神经网络的方法。神经网络的作用对比于传统的Q Learning,DQN还额外附加了一个NN(Neural Network),它的通过输入的状态S得到各个不同的动作Actions的Q值**(注意:Q值和奖励Reward不同)**。另一个作用,在DQN中存在一个存储器,存储了模型在自我学习过程中的S(当前状态),A(采取的某一个行动),R(该动作的奖励原创 2021-05-14 20:00:21 · 3085 阅读 · 0 评论 -
Q-learning(强化学习)
什么是强化学习举一个很简单的例子,如果你养了一只宠物—旺财,旺财是一只刚出生的宠物(不一定是狗),啥也不知道,纯洁的像一张白纸。现在你想训练它达到一个目的,例如你想让旺财学猫叫。那么如果旺财“喵”了一声,你就给它最喜欢吃的骨头。如果它“旺”了一声,不仅没有骨头吃,还要严厉的惩罚。久而久之,旺财知道了,喵=骨头,汪=惩罚。我们作为主人来模仿环境,例如以命令的形式给我们的旺财一个状态St。我们的旺财是接收状态的对象,随即采取类似喵或者汪的动作。旺财选择任一种动作的过程叫做决策。我们对旺财进行奖励或者惩罚称为原创 2021-05-14 19:59:02 · 1753 阅读 · 0 评论