排序:
默认
按更新时间
按访问量

TRPO置信域策略优化推导分析《Trust Region Policy Optimization》

本文参照此文做了学习整理。 根据策略梯度方法,很难选择步长使参数更新向着策略变好的方向变化,如果步长不合适,可能导致越学越差致使系统崩溃。 如何选择一个合适的步长,或者说,如何找到新的策略使新的回报函数的值单调递增,或单调不减。这是TRPO解决的问题。 强化学习的回报函数定义为: η(π~)=Eπ...

2018-10-14 09:46:58

阅读数:15

评论数:0

GAIL生成对抗模仿学习详解《Generative adversarial imitation learning》

通过深度强化学习,我们能够让机器人针对一个任务实现从0到1的学习,但是需要我们定义出reward函数,在很多复杂任务,例如无人驾驶中,很难根据状态特征来建立一个科学合理的reward。 人类学习新东西有一个重要的方法就是模仿学习,通过观察别人的动作来模仿学习,不需要知道任务的reward函数。模...

2018-09-27 10:26:43

阅读数:139

评论数:0

Hoeffding's inequality霍夫丁不等式

引入 假定投硬币,投出正面的概率为ppp,反面的概率为1−p1−p1-p。则投出nnn次,正面出现的期望次数为npnpnp。硬币正面最多出现kkk次的概率可以通过下式确定 P(H(n)≤k)=∑i=0k(ni)pi(1−p)n−iP(H(n)≤k)=∑i=0k(ni)pi(1−p)n−i P...

2018-05-24 16:06:34

阅读数:291

评论数:0

正态分布与均匀分布之间的变换

一、任何分布都能化为[0,1][0,1][0,1]均匀分布   假设FX(a)=p(x≤a)FX(a)=p(x≤a)F_X(a)=p(x\le a)为累积分布函数,f(x)f(x)f(x)为概率密度函数,FX(a)=∫a−∞f(x)dxFX(a)=∫−∞af(x)dxF_X(a)=\int_{-...

2018-05-20 10:29:20

阅读数:1664

评论数:1

多维高斯分布与协方差矩阵的关系以及高斯椭圆

一维高斯分布概率密度函数 f(x;μ,σ)=1σ2π−−√exp(−(x−μ)22σ2)f(x;μ,σ)=1σ2πexp⁡(−(x−μ)22σ2) f(x;\mu,\sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{(x-\mu)^2}{2\si...

2018-05-17 16:34:32

阅读数:1330

评论数:0

拟牛顿法Jacobian矩阵和Hessian矩阵

转载自:Jacobian矩阵和Hessian矩阵

2018-05-17 14:52:26

阅读数:112

评论数:0

稀疏表示与字典更新KSVD算法

1. 算法简介 K-SVD可以看做K-means的一种泛化形式,K-means算法总每个信号量只能用一个原子来近似表示,而K-SVD中每个信号是用多个原子的线性组合来表示的。 K-SVD通过构建字典来对数据进行稀疏表示...

2018-05-11 10:14:59

阅读数:488

评论数:3

缓存淘汰算法-LRU算法

转载自:缓存淘汰算法-LRU算法   1. LRU1.1. 原理 LRU(Least recently used,最近最少使用)算法根据数据的历...

2018-04-27 09:32:17

阅读数:128

评论数:0

关于内存分配的几个错误C++

错误一 HEAP CORRUPTION DETECTED: after Normal block (#150) at 0x0046B2A0. CRT detected that the application wrote to memory after end of heap buffer. ...

2018-03-28 08:43:40

阅读数:172

评论数:0

C++类中静态变量和静态方法使用介绍

转载自:https://www.cnblogs.com/ppgeneve/p/5091794.html 静态成员的提出是为了解决数据共享的问题。实现共享有许多方法,如:设置全局性的变量或对象是一种方法。但是,全局变量或对象是有局限性的。这一章里,我们主要讲述类的静态成员来实现数据的共享。  静态...

2018-03-16 16:54:46

阅读数:99

评论数:0

C++数组作为形参传递给函数

以下三种形式等价void function(const int *arg); void function(const int arg[]); void function(const int arg[10]);//这里维度表示期望有10个,并不代表真实为10个以上三个函数等价于将数组的头指针cons...

2018-03-15 20:33:26

阅读数:87

评论数:0

KMP算法详解C++实现

KMP算法是判断两个字符串str1中是否包含与str2相同的子串。 next数组概念 KMP算法最关键的就是next数组。next数组就是针对str2串中每个字符前的子串中存在的前缀与后缀匹配的最长长度。假设str2为“abababca”。 j=0,字符str2[j]=a,a前没有字符串...

2018-03-07 11:40:17

阅读数:73

评论数:0

C++数组作为参数传递给函数

1.如果使用引用,需要在函数形参写出引用数组的长度。void bubblesort(int(&unsortarray)[10], const int &length) { for (int i = 0; i < length; ++i) { for (...

2018-02-28 10:05:10

阅读数:765

评论数:0

二叉树遍历与序列化

遍历A 先序遍历 中、左、右 递归方式: public void preOrderRecur(Node head){ if (head==null){ return; } System.out.print(head.value + "...

2018-02-14 20:38:59

阅读数:114

评论数:0

python基础学习七——类

python 面向对象相对别的语言来说缺少两个功能: 1、python不具备重载,重载是指在同一个类中,使得方法有相同的名称,但是有不同的参数列表,但由于python函数具有强大的参数处理功能,因此这不是一个问题。 2、python不存在强制数据隐私的机制,不过若想创建属性(实例变量或方法)时...

2018-01-30 21:27:09

阅读数:71

评论数:0

python匹配路径下指定文件glob.glob()

在应用中,需要获取指定路径下特定文件名或文件类型的文件列表。可以用glob.glob()函数实现。 在python中,glob模块是用来查找匹配的文件的 在查找的条件中,需要用到Unix shell中的匹配规则: * : 匹配所所有 ? : 匹配一个字符 ...

2018-01-28 10:53:04

阅读数:543

评论数:0

python路径拼接os.path.join()函数完全教程

os.path.join()函数用于路径拼接文件路径。 os.path.join()函数中可以传入多个路径: 会从第一个以”/”开头的参数开始拼接,之前的参数全部丢弃。 以上一种情况为先。在上一种情况确保情况下,若出现”./”开头的参数,会从”./”开头的参数的上一个参数开始拼接。 ...

2018-01-28 10:38:54

阅读数:30676

评论数:6

python查询文件夹下文件os.walk()用法

os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) top – 根目录下的每一个文件夹(包含它自己), 产生3-元组 (dirpath, dirnames, filenames)【文件夹路径, 文件夹名字, 文件名...

2018-01-26 21:37:06

阅读数:238

评论数:0

Tensorflow入门教程五—会话

会话拥有并管理Tensorflow程序运行时的所有资源。当所有计算完成之后需要关闭会话来帮助系统回收资源,否则就可能出现资源泄露的问题。Tensorflow使用会话有两种模式,第一种需要明确生成并关系会话。如下:import tensorflow as tf sess = tf.Session()...

2017-12-30 15:28:00

阅读数:141

评论数:0

Tensorflow入门教程四—张量

在Tensorflow中所有的数据都是通过张量的形式来表示。从功能上看,张量可以被理解为一个多维数组。但张量在Tensorflow中的实现并是不直接采用数组的形式,它是对Tensorflow中运算结果的引用,在张量中并没有真正保存数字,他保存的是如何得到这些数字的计算过程。如下所示,并不会得到加法...

2017-12-30 11:48:21

阅读数:465

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭