CodeTutor

http://codetutor.net/

强化学习资料汇总

网上关于强化学习的资料很多,这里对一些比较有价值的资料进行汇总,包括书籍、课程、博客以及论文,并且会持续更新。 书籍 Reinforcement Learning: An Introduction. Richard S. Sutton and Andrew G. Barto. 2017....

2018-06-06 12:13:33

阅读数 2134

评论数 1

自动驾驶学习资料

课程 MIT 6.S094: Deep Learning for Self-Driving Cars. 2017.

2018-05-14 21:29:26

阅读数 2281

评论数 0

在Sublime Text中使用Markdown

本文介绍如何在Sublime Text中使用Markdown标记语言编辑.md文档。 1 安装Package Control Package Control是Sublime Text的包管理器。 最简单的安装Package Control的方法是通过Sublime Text控制台。控制台可以...

2018-05-14 20:45:55

阅读数 1912

评论数 0

python第三方库——matplotlib库

1、直方图 import matplotlib.pyplot as plt import numpy as np data = list(np.random.randn(10000)) info = r'$\mu=0, \ \sigma=1$' plt.text(1, 0.35, info, b...

2018-05-14 20:13:50

阅读数 2780

评论数 0

PyTorch学习系列(一)——加载数据2

生成batch数据 现在有了由数据文件生成的结构数据MyDataset,那么怎么在训练时提供batch数据呢?PyTorch提供了生成batch数据的类。 PyTorch用类torch.utils.data.DataLoader加载数据,并对数据进行采样,生成batch迭代器。 class ...

2018-05-14 20:08:21

阅读数 2172

评论数 1

西瓜书《机器学习》课后答案——Chapter1

1.1 请查看西瓜书《机器学习》阅读笔记1——Chapter1_假设空间中列举的所有假设。现在只有西瓜1和西瓜4两个样本: 西瓜1为正例,找到假设空间中和它一致的假设:10,12,14,16,58,60,62,64 西瓜4为反例,找到假设空间中和它一致的假设:23,24,31,32,55,5...

2018-05-14 20:06:32

阅读数 2248

评论数 0

西瓜书《机器学习》课后答案——Chapter3

3.2 试证明,对于参数ωω\boldsymbol \omega,,对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。 解答: 定理:设f(x)f(x)f(\boldsymbol x)是定义在非空开集D⊂RnD⊂RnD\subset \mathbb R^n上的二...

2018-05-14 20:05:26

阅读数 2028

评论数 0

支持向量机(一)——线性可分支持向量机

支持向量机(Support Vector Machine, SVM)是一种二分类模型。它的基本思想是间隔最大化。 1、线性可分支持向量机 给定训练集T={(x1,y1),(x2,y2),...,(xm,ym)}T={(x1,y1),(x2,y2),...,(xm,ym)}T=\{(\bol...

2018-05-14 20:02:31

阅读数 1702

评论数 0

极大似然估计——为什么对于离散属性,极大似然估计法得到的类条件概率等于频率?

极大似然估计就是最大化对数似然。 假设第c类有K个样本。属性取值为N种,表示为集合X,且取第i个属性值的样本共有kikik_i个,显然有∑i=1Nki=K.∑i=1Nki=K.\sum_{i=1}^N k_i=K. 极大似然估计首先假设P(x|c)=f(x,θc)P(x|c)=f(x,θc)P...

2018-04-03 00:01:58

阅读数 2171

评论数 0

西瓜书《机器学习》课后答案——chapter16_强化学习

1.用于K-摇臂赌博机的UCB(Upper Confidence Bound)方法每次选择Q(k)+UC(k)Q(k)+UC(k)最大的摇臂,其中Q(k)Q(k)为摇臂k当前的平均奖赏,UC(k)UC(k)为置信区间。例如:Q(k)+2lnnnk−−−−−√Q(k)+ \sqrt{\frac{2\...

2017-12-21 19:08:20

阅读数 2124

评论数 0

强化学习——值函数与Bellman方程

在强化学习中,agent和环境之间进行一系列交互:在每个时刻tt,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。agent的目标是最大化累积奖励。1 MDP马尔可夫决策过程(Markov Decision Process, MDP)是对环...

2017-12-19 10:47:35

阅读数 10775

评论数 4

Nvidia_GPU驱动安装

GPU驱动安装1 驱动下载从英伟达的官方网站上下载指定的驱动: 官网地址:http://www.nvidia.cn/Download/index.aspx?lang=cn具体操作: 下面以下载Tesla m40显卡为例子 在产品类型一栏中选择相应的产品类型,比如 Tesla 在产品系列中选...

2017-12-06 09:51:48

阅读数 4830

评论数 0

西瓜书《机器学习》课后答案——chapter14

1.试用盘式记法表示条件随机场和朴素贝叶斯分类器。2.证明图模型中的局部马尔科夫性:给定某变量的邻接变量,则该变量条件独立于其他变量。 解答: 这个问题以及第3题其实是不太严谨的。 根据李航《统计学习方法》p.193中概率无向图模型的定义: 概率无向图模型: 设有联合概率分布P(Y...

2017-12-05 17:44:10

阅读数 2767

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(十八)——参数初始化

5.3 参数初始估计理论上,估计公式可以给出似然函数局部最小值对应的参数。这样的话,我们怎么选择HMM参数的初始值使得局部最大是全局最大呢?对于上面的问题并没有直接的答案。经验表明,对pipi和AA进行随机初始化(满足随机以及非零约束)或者均匀初始化,在多数情况下都可以得到比较好的结果。但是对于B...

2017-12-05 12:12:59

阅读数 1761

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(十七)——多观测序列

5.2 多观测序列在第4节我们讨论了左右HMM(Bakis模型),这种模型中状态按序从t=1t=1时的状态1移动到t−Tt-T时的状态N。我们已经讨论了左右模型是怎么对状态转移矩阵施加约束的以及初始状态概率(45)-(48)。但是,左右模型的主要问题是不可能只用一个观测序列训练模型。这是因为模型中...

2017-12-05 11:59:00

阅读数 1618

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(十六)——放大

5 HMM的实现问题前面两节的讨论主要是关于HMM的理论以及模型的变体。这一节我们会讨论HMM的实现问题,包括放大、多观测序列、初始参数估计、数据丢失、模型大小以及类型的选择。对其中一些实现问题,我们可得到精确解析解;而对于其他问题,我们只能给出一些经验建议。5.1 放大为了理解在HMM参数估计过...

2017-12-05 10:06:45

阅读数 1741

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(十)——连续观测密度

4.1 连续观测密度目前为止我们的讨论中只考虑了观测是离散值的情况,这种情况下对每个状态可以使用离散概率密度。但是存在一些应用离散值是连续信号(比如向量)。虽然可以通过码本把连续信号量化,但是这种量化可能存在严重的退化。所以希望HMM中可以用连续观测密度。为了使用连续观测密度,必须对模型概率密度函...

2017-12-01 17:45:43

阅读数 2005

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(九)——HMM的类型

4. HMM的类型目前为止,我们只考虑了遍历或全连接HMM这种特殊情况,即所有的状态都可以由所有其他状态到达。严格来说,遍历模型是所有状态都可以由其他所有状态经过有限步到达。如图7(a)所示,对一个N=4N=4的这种模型,所有的aija_{ij}都大于0。于是对7(a)中的例子,我们有 A=⎡⎣...

2017-12-01 16:40:55

阅读数 1750

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(八)——学习问题

3.3 问题3的求解(学习问题)HMM的第三个问题——学习问题是最困难的一个,需要通过最大化观测序列的概率来调整模型参数(A,B,π)(A, B, \pi)。暂时还没有解析法来解决这个问题。事实上,给定一个有限观测序列作为训练数据,并不存在最优方法得到模型参数。但是,我们可以通过迭代法比如Baum...

2017-12-01 12:01:40

阅读数 407

评论数 0

HMM经典介绍论文【Rabiner 1989】翻译(七)——预测问题

3.2 问题2的求解(预测问题)有多种方法可以求解与观测序列相关的最优状态序列。难度在于最优状态序列的定义,因为有多种优化指标。比如,可以独立地为每个时刻tt选择最有可能的状态qtq_t。这个优化指标最大化正确状态的期望个数。定义变量 γt(i)=P(qt=Si|O,λ),(26)\gamma_...

2017-12-01 10:46:53

阅读数 426

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭