2017年10月_dlphay

原创指导Agent在XX的环境中做出最优决策的模型框架

任务：自动驾驶具备人的行为智能（指导Agent在XX的环境中做出最优决策的模型框架）的目的。针对自动驾驶问题，提出不需要专家知识辅助的简单说明：增强学习中神经网络需要完成的任务：针对图像，通过（神经网络）抽象出任务所处环境的特征信息，将特征信息与动作行为之间建立联系（相比于传统图像识别任务：特征信息与识别目标位置、类别之间建立联系）。Agent需要与环境层（真实环境，模拟环境，游戏环境

2017-10-11 09:36:00 3220

转载深度强化学习与自适应在线学习的阿里实践

『干货』深度强化学习与自适应在线学习的阿里实践2017-02-24 阿里技术http://url.cn/5epDVHI1搜索算法研究与实践1.1背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的

2017-10-29 19:39:51 6323

转载 Logistic 分类器与 softmax分类器

Logistic 分类器与 softmax分类器首先说明啊：logistic分类器是以Bernoulli（伯努利）分布为模型建模的，它可以用来分两种类别；而softmax分类器以多项式分布（Multinomial Distribution）为模型建模的，它可以分多种互斥的类别。补充：什么是伯努利分布？伯努利分布[2] 是一种离散分布,有两种可能的结果。1表示成功，

2017-10-28 10:02:43 1238

原创 A3C经典源码

import torchimport torch.nn as nnimport torch.nn.functional as Ffrom torch.autograd import Variableimport matplotlib.pyplot as pltimport numpy as npimport mathimport randomimport osimport gym

2017-10-26 11:05:30 1343 1

原创进化计算的简单例子

#include#include#include#includeusing namespace std;//种群总数const int popSize = 100;//染色体长度const int chromosomeSize = 9;//变异概率const double Pm = 0.001;//最多代数const int MaxGen = 100;//变异概率co

2017-10-17 15:28:46 2969

转载 TRPO

转载自知乎专栏天津包子馅儿的知乎今天开始我们的第七讲，TRPO。先简短地介绍一下：TRPO是英文单词Trust region policy optimization的简称，翻译成中文是信赖域策略优化。提出这个算法的人是伯克利的博士生John Schulman，此人已于2016年博士毕业。Schulman的导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利

2017-10-16 17:34:32 4968 1

转载 Windows 7下通过anaconda安装tensorflow

本贴解决目的：Windows 7下通过anaconda安装tensorflow今天说一下通过Anaconda安装tensorflow，并安装运行spyder编译器。网上很多教程不全，官网的也没有详细讲解，通过我的不断试错和寻找解决方案，给大家一个正确完整最新的教程。先介绍下Anaconda和TensorFlow：什么是 Anaconda？Anaconda

2017-10-11 17:18:25 2308

原创 Policy Gradient简述

占个坑！！！简单解释Policy Gradient需要Actor 网络来实现，通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy（动作的概率）。对于动作的价值评价更是多种多样，这些就是PG（Policy Gradient）的核心部分。注：log的有无区别加log：增加了非线性无log：无非线性详情在这里：一共涉及6种价值的评估： 1 轨迹中，全部奖励值

2017-10-11 10:00:57 2417 2

原创神经网络解结构中关键部分的构造方法

先占个坑，详细内容后续添加！！！直接解或者间接解结构的构造：利用神经网络中神经元（卷积核）参数对某一状态稀疏编码（激活）出一个很抽象的感受（神经网络最大的创新），这个感受可以直接端到端地降维计算出一个具体的我们想要的解结构的关键部分。训练就是学习和改变神经元参数，去使得解结构的关键部分朝着目标（）的梯度去更新。卷积：特征收集器如何调参数可以说计算出动作的价值

2017-10-11 09:40:28 386

原创 RL论文

https://zhuanlan.zhihu.com/p/21378532?refer=intelligentunit

2017-10-09 19:32:20 649

原创 BP learning算法简单推导

从后向前逐层更新网络的参数集合。求解优化问题：其中： BP的改进：可以通过改进连接方式、改进训练样本、改进损失函数、改进学习速率进行优化。改进连接方式：稀疏局部连接策略和权重共享策略。改进训练样本：规范化训练样本、适当扰动训练样本。改进损失函数：改进前馈网络整体损失函数改进学习速率：增加动量项和陡度因子和可变学习速率的策略。算法缺点： 1 训练过程中容易过拟合，不可避免

2017-10-07 09:47:55 633

原创基于神经网络的DQN方法

Deep Q Nework 方法：DeepQ Network算法的详细解释：需要明白两个概念，一个是Q网络，一个是targrtQ网络，Q网络是我们预测网络，targrt Q网络可以认为是我们的训练网络，训练的目标是找到目标Q值：，这里目标Q值的定义依据时间差分算法（n-step TD，一般采用单步时差更新，步数越长，参考的奖励值数量也越多，网络的远见能力越强，），认为目

2017-10-05 21:55:32 3969

原创基于table的Q learning和Sarsa算法

Off-policy Q learning算法和On-policy Sarsa learning都是时序差分（TD）下对动作价值函数优化的单步方法，在没有神经网络之前，都是通过table的方法，下面简单介绍一下：最佳决策可以通过遍历所有的情况去得到，有些时候情况比较多元，只能通过部分的情况去学习经验，然后得到一个亚最佳决策（趋近于最佳决策）。那么如何得到亚最佳决策是我们关心的问题。

2017-10-05 16:46:11 1097

原创如何指导神经网络模型的调优设计？

本文主要讲解一些参数初始化技巧和超参数的设置技巧，模型的理解和设计技巧，如何去指导我们对模型进行调优设计，如何从高（层数深）胖（卷积核庞大）的模型到高瘦或者矮（层数浅）瘦（卷积核较少）的模型去演变，同时性能得到优化或者保持！训练的过程和阶段可以分为3个阶段：欠拟合：模型没有很好地捕捉到数据特征（训练集和验证集的loss都大于0.3）。刚刚好：模型已经完成了我们的任务，满足要求（

2017-10-03 11:06:22 3168

dlphay的博客