魏小侠-CSDN博客

原创【keras代码实现】cnn-conv2D

本博客得代码来自一位b站分享技术得up，我觉得视频特别关注初学者，讲的非常细。希望分享给大家，视频传送门玩转Keras卷积神经网络Mnist数据集，代码传送门cnn代码这篇博文分享一下使用Keras实现的cnn神经网络的代码代码文件结构如下，CNN_Conv2d_train.py是用来训练这个模型的，CNN_Conv2d_predict.py是用于将我们自己的图片输入进去，用于预测的...

2019-05-24 16:14:36 3166 1

原创【李弘毅深度强化学习】 5.Q-learning (Continuous Action)

Q Learning是一种很好的方法，但是q learning很难处理连续动作的情况。因为q学习是基于值得，如果动作连续，q表太大，则很难计算。但是凡是问题都有解决的方法，如何解决Q Learning难以应对连续动作得问题呢！解决方法一：在连续得动作中，我们sample采样出一部分n个，将其变成有限动作的问题。但是这种方法的缺点就是采样不完整，可能会造成以后的问题解决方法二：我们用...

2019-05-19 17:27:29 499

原创【李弘毅深度强化学习】4，Q-Learning (Advanced Tips)

这节课我们主要思考的问题是提升DQN得一些小tips，其中第一个就是double DQN。其中红色锯齿状得线就是使用最初的DQN所得到得Q估计得值，之后红色的直线是DQN算法所得到的真实的Q值。蓝色锯齿状线是使用double DQN所得到的Q估计值，蓝色直线是double DQN算法得到的真实的Q值。我们可以看到使用DQN得到的Q估计都是比较大的，这就是我们所说的DQN往往会高估。红色...

2019-05-19 17:01:06 278

原创【李弘毅深度强化学习】8.Imitation Learning

本节课我们主要研究的是“Imitation Learning”（模仿学习）Imitation Learning也被叫做“示范”或者“学徒学习”使用这种方法的情况通常是这样的：1，agent可以和环境进行交互，但是通常是无法获得具体明确的reward。2，在一些实验中是无法明确定义reward的。3，有的时候我们定义的reward是不准确的，容易造成很大困扰的虽然reward是很难定...

2019-05-19 15:38:55 1879

原创【李弘毅强化学习】7.Sparce Reward

在现实生活中我们强化学习实验中我们经常会遇到的一种情况是：reward过于稀疏，导致强化学习的训练是十分艰难的。举个例子：在一张桌子上训练一个机器人用螺丝刀去拧螺丝，机器手臂很多时候都是没有reward（reward很多时候都是为零的）的，在这种情况下，因为reward一直是0，所以很难去更新，在这种情况下，我们应该怎样才可以完成对强化学习的更新呢！第一种方法就是Reward Shapin...

2019-05-16 21:30:37 1266

原创【李弘毅强化学习】6.Actor-Critic

这次课讲解的是A3C，我们先来复习一下policy gradient和Q-learing的知识。这是PG的形式，我们把小括号中的内容叫做G，G是一堆马尔可夫链的收益和，并且抽样出一部分。但是这个过程是十分不稳定的，因为抽样的时候不知道具体会抽样那个马尔可夫链，例如下图，有的G是100，有的G是-10.如果抽到这两个，那么训练效果肯定是极差的。一般情况下我们都是把G全部求出来，之后再求期...

2019-05-16 18:37:00 384

原创【李弘毅深度强化学习】3，Q-learning (Basic Idea)

这部分主要讲解一下Q-learning部分的知识这里介绍一下critic：给定一个critic，并不会明确的指出需要做出什么动作，当给予一个actor一个策略Π的时候，critic会给出这个策略的分数，vΠ：当actor在状态s的时候选择策略Π，之后衡量这个actor在这个状态s的价值。中间这个图片的v值就是很大的，因为还有很多怪没有打，并且还有阻挡敌人的盾牌，但是右边这个图片的vΠ值...

2019-04-25 17:37:33 232

原创论文阅读笔记一【StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Netwo】

先验知识：GAN简介CGAN简介本文是研究文本生成图片的问题，相比于之前的论文不能生成必要的细节和具体的对象，本文着重要解决的问题是提高图片的分辨率同时为图片添加必要的细节。其实stackGAN的原理和做法很类似，可以看作是两个CGAN串联在一起。如图所示，上方是Stage-I GAN：它根据给定的文本描述绘制对象的原始形状和基本颜色，并从随机噪声向量绘制背景布局，从而产生低分...

2019-04-24 13:52:29 2189

原创【李弘毅mlds18GAN】2，Conditional Generation by GAN

我么这次想要解决得问题是，输入一段文字，之后生成其对应得图片。比如输入文字“a dog is running”之后输出的是一只飞奔的小狗。如果是使用传统的监督学习来解决这个问题的话，其实是可以解决的，但是训练集中有的火车是正面，有的是在侧面，这样的话如果使用监督学习的话，要做均值处理的话是搞不定的，因为均值的结果是模糊的，一般会是错的。如果产生正面的火车是好的结果，如果产生侧面的火车是好的结果...

2019-04-21 15:45:32 1069

原创【李弘毅MLDS18】GAN 1,introduction

首先是介绍GAN的基本信息其实GAN是一种生成算法，比如在图像的世界中就是，输入一个向量，之后GAN神经网络就会用这个向量去生成一张图片，在句子生成的世界就是输入一个向量，利用GAN神经网络去生成新的一个句子。在向量不同的情况下，生成的东西也是不同的。但是这种无条件的生成是没什么意义的，我们以后会学习Conditional GAN，这个的作用是给你一句话，之后应用GAN去生成一个图...

2019-04-20 20:59:23 330

原创【李弘毅深度强化学习】2，Proximal Policy Optimization (PPO)

这一节主要讲解的是policy gradient从on policy 到off policy的转变on policy：和环境交互的agent和要学习的agent是一个agent。举个例子就是阿光自己下棋，并且学习如何下棋。自己在探索，自己在学习。off policy：和环境交互的agent和要学习的agent不是一个agent。举个例子就是阿光看佐为下棋，阿光在学习。就是说agen...

2019-04-17 18:19:23 607

原创李弘毅深度强化学习笔记【1 Policy Gradient 】

强化学习得三个主要要素：actor（智能体本身），env（环境），reward function（奖励）但是环境我们是无法改变得，reward我们也无法改变，唯一可以改变得是智能体得动作智能体得策略：策略Π就是智能体在环境s得情况下选择行动a的概率在policy gradient的算法中，我们用神经网络来拟合策略policy。神经网络的参数。神经网络的输入是机器的观测值（可...

2019-04-16 12:44:19 353

原创 51cto强化学习（2）Q—learning学习笔记

我们假设一个场景，一间房子，分为0，1，2，3，4五个屋子，5号所代表的是屋子以外。此时此刻，一个智能体从2号屋子开始走，目标是5号室外。我们根据左图的信息，抽象出右图的路线图。我们为这个问题设计奖励函数的值，奖励函数值为0的时候表示两点之间可以到达。由于最终的目标是5号室外，所以我们将1——5，4——5，5——5这三段的奖励函数设置为100。我们将这段抽象为一个矩阵，纵向表示...

2018-10-30 00:07:40 365

原创 51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记

马尔可夫决策的要求：1，能够检测到理想状态：比如我们想让强化学习算法来实现走迷宫，最后这个迷宫一定是可以走出的，倘若迷宫没有出口便不可以套用马尔可夫。2，可以多次尝试：依然使用走迷宫的例子，我们可以在走迷宫失败的时候进行多次尝试，而不是失败以后就停止。3，系统的下个状态只和当前状态信息有关，而和之前的更早的状态无关，在决策的过程中还和当前采取的动作有关：马尔可夫的条件是，下一个状态...

2018-10-29 17:12:01 1553

weisiqi520的博客