自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 Mpi4py实践

1.概述 MPI(Message Passing Interface),消息传递接口,是一个标准化和轻便的能够运行在各种各样并行计算机上的消息传递系统。消息传递指的是并行执行的各个进程拥有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信息交互完全通过显示地调用通信函数...

2017-11-01 16:55:55

阅读数 898

评论数 0

转载 Conjugate Gradient

Conjugate Gradient Before diving in to Haskell, let’s go over exactly what the conjugate gradient method is and why it works. The “normal” conjugate...

2017-10-23 19:28:52

阅读数 299

评论数 0

原创 PR10.21:Trust Region Policy Optimization

What’s problem?根据策略梯度方法,参数更新方程式为: θnew=θold+α▽θJ \theta _{new}=\theta _{old}+\alpha \triangledown _{\theta }J 策略梯度算法的硬伤就在更新步长 \alpha ,当步长不合适时,更新的参...

2017-10-21 12:12:20

阅读数 341

评论数 0

转载 使用 screen 管理远程会话

你是不是经常需要 SSH 或者 telent 远程登录到 Linux 服务器?你是不是经常为一些长时间运行的任务而头疼,比如系统备份、ftp 传输等等。通常情况下我们都是为每一个这样的任务开一个远程终端窗口,因为他们执行的时间太长了。必须等待它执行完毕,在此期间可不能关掉窗口或者断开连接,否则这个...

2017-10-16 09:07:37

阅读数 216

评论数 0

原创 PR10.10:#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning

What’s problem?Count-based exploration algorithms are known to perform near-optimally when used in conjunction with tabular reinforcement learning (R...

2017-10-12 10:51:04

阅读数 447

评论数 0

原创 PR17.10.4:Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

What’s problem? A major obstacle facing deep RL in the real world is their high sample complexity. Batch policy gradient methods offer stable learnin...

2017-10-06 16:23:24

阅读数 327

评论数 0

原创 PR17.10.2:Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control

What’s problem and challenges?There are many sources of possible instability and variance that can lead to difficulties with reproducing deep policy ...

2017-10-03 13:41:28

阅读数 275

评论数 0

转载 SIFT特征提取分析

SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配,获得了良好效...

2017-09-20 18:33:18

阅读数 214

评论数 0

转载 Ubuntu 14.04 64bit caffe安装

本篇博客主要用于记录Ubuntu 14.04 64bit操作系统搭建caffe环境,目前针对的的是CPU版本; 1.安装依赖库 sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev l...

2017-08-15 16:22:01

阅读数 311

评论数 0

转载 Ubuntu 14.04 64bit 安装Caffe(GPU版本)

0.检查配置 1. VMWare上运行的Ubuntu,并不能支持真实的GPU(除了特定版本的VMWare和特定的GPU,要求条件严格,所以我在VMWare上搭建好了Caffe环境后,又重新在Windows 7 64bit系统上安装了Ubuntu 14.04 64bit系统,链接在此,以此来搭...

2017-08-15 16:21:06

阅读数 955

评论数 0

转载 强化学习——A3C,GA3C

一、问题与贡献 存在的问题  不同类型的深度神经网络为 DRL 中策略优化任务提供了高效运行的表征形式。 为了缓解传统策略梯度方法与神经网络结合时出现的不稳定性,各类深度策略梯度方法(如 DDPG、 SVG 等)都采用了经验回放机制来消除训练数据间的相关性。 然而经验回放机制存在两个...

2017-08-11 21:00:02

阅读数 4419

评论数 0

转载 Python 学习笔记 多进程 multiprocessing

Python 解释器有一个全局解释器锁(PIL),导致每个 python 进程中最多同时运行一个线程,因此 Python 多线程程序并不能改善程序性能,不能发挥多核系统的优势,可以通过这篇文章了解。 但是多进程程序不受此影响, Python 2.6 引入了 multiprocessing 来解...

2017-08-07 15:39:19

阅读数 303

评论数 0

转载 深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】

作者:Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究。 责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》 ...

2017-08-04 23:33:23

阅读数 916

评论数 0

转载 Jacobian矩阵和Hessian矩阵

Jacobian 在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇:伴随该曲线的一个代数群, 曲线可以嵌入其中. 它们全部都以数学家卡尔·雅可比(Carl Jacob, 1804年10月4日-1851...

2017-07-23 22:45:28

阅读数 228

评论数 0

转载 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题。子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点。本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-bas...

2017-06-25 21:28:27

阅读数 12088

评论数 2

原创 蒙特卡洛方法

什么时候使用蒙特卡洛方法:  蒙特卡洛方法适用于免模型的强化学习任务。(“免模型学习”对应于一类现实的强化  学习任务,在该类任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态,因此,在该类学习任务中,学习算法不依赖于环境建模。)  为什么使用蒙特卡洛方法:  ...

2017-06-07 09:21:12

阅读数 6322

评论数 0

原创 时序差分学习(Temporal-Difference Learning)

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法,是强化学习的核心思想。 蒙特卡洛的方法是模拟(或者经历)一段序列,在序列结束后,根据序列上各个状态的价值,来估计状态价值。  时序差分学习是模拟(或者经历)一段序列,每行动一步(或者几步)...

2017-06-07 09:20:07

阅读数 8765

评论数 0

原创 强化学习笔记04——动态规划

动态规划(DP)是指,当给出一个具体的环境模型已知的马尔科夫决定过程(MDP),可以用于计算其最佳策略的算法集合。经典DP算法在强化学习中的实用性有限,因为他们假定了一个具体的模型,并且还受限于它们的计算cost很高,但它在理论上仍然很重要。策略迭代通用策略迭代是: 1. 先从一个策略π0\pi...

2017-05-29 10:34:41

阅读数 1850

评论数 0

转载 Linux系统下安装matlab2016b

步骤: 1、下载: http://pan.baidu.com/s/1bpigeHx passwd:gl8e 下载后的Linux文件夹会有三个文件分别是R2016b_glnxa64_dvd1.iso、R2016b_glnxa64_dvd2.iso和Matlab 2016b Linu...

2017-05-23 15:48:52

阅读数 2164

评论数 0

原创 强化学习笔记03——有限马尔科夫过程

代理环境交互在强化学习中,将学习器和决策器称为代理,而与代理交互的事物称为环境。可将问题认为代理与环境的交互。 代理会产生一个与环境对应的策略,用πt\pi_{t}表示,πt(a|s)\pi_{t}(a|s)表示在状态为s的情况下采取动作a的概率。目标与报酬强化学习的目标就是最大化获得的报酬...

2017-05-21 09:49:35

阅读数 1158

评论数 0

原创 强化学习笔记01,02——强化学习问题和Multi-arm Bandits

人之所以能适应环境的变化并不断提高解决问题的能力,其原因是人能通过学习积累经验,总结规律,以增长知识和才能,从而更好地改善自己的决策和行为。强化学习的思想来源于人类对动物学习过程的长期观察。在机器学习范畴,依据从系统中获得的反馈不同,机器学习可以分为监督学习,无监督学习和强化学习。强化学习概念强化...

2017-05-20 16:11:09

阅读数 1171

评论数 0

转载 ubuntu安装opencv3

1、安装依赖的库sudo apt-get install build-essential // 必须的,gcc编译环境 sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-de...

2017-03-31 15:43:46

阅读数 768

评论数 0

转载 ubuntu安装之后的几件事

首先建议到科大镜像下载安装包http://mirrors.ustc.edu.cn/ 安装结束后需要卸载一下不用的软件: 删除libreoffice libreoffice虽然是开源的,但是Java写出来的office执行效率实在不敢恭维,装完系统后果断删掉 sudo apt-get remov...

2017-03-31 15:36:06

阅读数 421

评论数 0

转载 蒙特卡罗方法(Monte Carlo Methods)

转自:http://www.cnblogs.com/jinxulin/p/3560737.html 1. 蒙特卡罗方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法...

2017-03-23 11:04:19

阅读数 3556

评论数 0

转载 马尔可夫决策过程MDP

1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。 ...

2017-03-17 09:23:44

阅读数 420

评论数 0

转载 caffe源码阅读1:caffe.proto解析

看caffe源码先从这里开始吧。 它位于…\src\caffe\proto目录下,在这个文件夹下还有一个.pb.cc和一个.pb.h文件,这两个文件都是由caffe.proto编译而来的。  在caffe.proto中定义了很多结构化数据,包括: BlobProtoDatumFillerPara...

2016-12-26 22:23:26

阅读数 1161

评论数 0

转载 OpenCV滤波之copyMakeBorder和borderInterpolate

在OpenCV滤波算法中,有两个非常重要的基本工具函数,copyMakeBorder和borderInterpolate copyMakeBorder 函数原型 void copyMakeBorder( const Mat& src, Mat& dst...

2016-12-26 11:13:04

阅读数 667

评论数 0

转载 caffe笔记6——自定义layer

每一种层都对应一个同名cpp和hpp文件 描述一下本次要实现层的功能: 正向直接copy传播,反向时将梯度放缩指定倍。 这个层对一些特定的网络结构有很重要的辅助作用,比如有时我们的网络存在分支,但我们不希望某一分支影响之前层的更新,那么我们就将梯度放缩0倍。 (1)创建HPP头文件di...

2016-12-23 15:44:49

阅读数 396

评论数 0

转载 在caffe中添加自定义的layer

在处理某些问题时,可能会需要自己去定义特定的layer来实现某些特殊功能,现将添加新的caffe layer的具体步骤进行整理,便于以后复习。 (一)具体步骤如下: 1. 修改{caffe_dir}/src/caffe/proto/caffe.proto 文件,在 V1LayerPar...

2016-12-23 15:20:37

阅读数 778

评论数 0

转载 1*1的卷积核与Inception

本文介绍1*1的卷积核与googlenet里面的Inception。正式介绍之前,首先回顾卷积网络的基本概念。  1. 卷积核:可以看作对某个局部的加权求和;它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积。卷积核的大小一般...

2016-12-22 23:20:29

阅读数 922

评论数 0

转载 caffe学习笔记5——solver文件解析

solver算是caffe的核心的核心,它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。 在Deep Learning中,往往loss function是非凸的,没有解析解,我们需要通过优化方法来求解。solver的主要作用就是交替调用前向(forward)...

2016-12-19 22:39:40

阅读数 326

评论数 0

转载 caffe笔记4——c++接口

本文主要解释官方提高的C++程序,通过这个程序来认识caffe的C++调用方式。#include <caffe/caffe.hpp> #ifdef USE_OPENCV #include <opencv2/core/core.hpp> #include <opencv...

2016-12-17 20:36:49

阅读数 947

评论数 0

原创 Two-Stream Convolutional Networks for Action Recognition in Videos

下载地址:http://www.datascienceassn.org/sites/default/files/Two-Stream%20Convolutional%20Networks%20for%20Action%20Recognition%20in%20Videos.pdfWhat’s pr...

2016-12-16 15:07:26

阅读数 2008

评论数 0

原创 caffe笔记3——用python实现mnist

官网教程:http://nbviewer.jupyter.org/github/BVLC/caffe/blob/master/examples/01-learning-lenet.ipynb1. 改变工作目录:import os caffe_root = '/home/adam/ca...

2016-12-16 14:00:00

阅读数 1414

评论数 0

原创 caffe笔记2——mnist例子

官网地址:http://caffe.berkeleyvision.org/gathered/examples/mnist.html一.准备数据首先,我们需要从网上下载数据,在caffe根目录下运行一下命令./data/mnist/get_mnist.sh ./examples/mnist/cre...

2016-12-15 21:08:00

阅读数 401

评论数 0

原创 caffe笔记1——文件结构

caffe文件夹下的文件目录结构如下图: 最重要的三个文件夹就是include, tools, src。读源码也就是主要读这三个文件夹,src文件的结构如下: 在caffe教程中,介绍了caffe的三级结构(http://caffe.berkeleyvision.org/tutorial/...

2016-12-15 20:34:14

阅读数 274

评论数 0

原创 3D Convolutional Neural Networks for Human Action Recognition

转载自 http://blog.csdn.net/zouxy09一、概述在现实的环境中,不同的场景存在杂乱背景、阻挡和视角变化等等情况,对于人来说,很容易就可以辨识出来,但对于计算机,就不是一件简单的事了。而以前的Human Action Recognition方法都是基于一些对应用场景苛...

2016-12-14 16:24:42

阅读数 832

评论数 2

转载 光流法简单介绍

光流的概念是Gibson在1950年首先提出来的。它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机...

2016-12-13 23:12:50

阅读数 320

评论数 0

原创 Leetcode 27 Remove Element(移除数组中的指定元素)

Given an array and a value, remove all instances of that value in place and return the new length.Do not allocate extra space for another array, you ...

2016-12-05 20:02:36

阅读数 431

评论数 0

原创 Leetcode 80. Remove Duplicates from Sorted Array II(从已排序数组中移除重复元素)

跟26一样 给定一个已排序的数组,删除重复的元素,这样每个元素最多只出现两次,并且返回新的数组长度。不允许为另一个数组使用额外的空间,你必须就地以常量空间执行这个操作。例如, 给定[1,1,1,2,2,3]你的函数应该返回length = 5, 其数组元素分别是1,1,2,2,3。它不关心你离...

2016-12-05 19:25:03

阅读数 216

评论数 0

提示
确定要删除当前文章?
取消 删除