机器学习
文章平均质量分 68
汪星人来地球
这个作者很懒,什么都没留下…
展开
-
大数定律(1):Markov不等式
在概率论中有许多著名的大数定律。它们主要结果如下:给定一个随机变量XX. 它可能是离散的随机变量(样本空间有限或者可数),也可能是连续随机变量(样本空间不可数)。这里说的样本空间,是指随机变量XX可能取值的范围。从测度论的角度来看,样本空间总可以认为是实数集,或者其子集。因为如果样本空间不是实数集或者其子集,那么我们总能找到从样本空间到实数集或者其子集的一一映射。假设随机变量XX的期望E[X]E[X原创 2017-07-29 16:05:13 · 11157 阅读 · 0 评论 -
强化学习第一:基本概念
强化学习研究的问题,是代理(agent)与环境(environment)交互的问题。什么是代理,什么是环境,并没有严格的定义。计算机科学是一门经验主义学科。它不像数学那样有板有眼,很多概念都是从实际应用出发,因此有模棱两可的地方。一般来说,我们把不由我们控制部分叫做环境;把我们可以完全控制对部分,同时能够影响环境的部分叫做代理。例如,考虑一个10臂老虎机问题。当我们按动一条老虎机臂时,它会给我们...原创 2019-02-19 12:01:40 · 375 阅读 · 0 评论 -
单点神经网络(1):Perceptron模型定义
上一篇博文介绍了离线学习与在线学习的区别。在实际应用中,离线学习常用于回归问题,而在线学习常用于分类问题。之所以有这样的现象,是因为回归问题本身必须对实例的概率分布有一个前提假设,否则也就没有所谓的均方误差。而在分类问题中,虽然我们也假设训练样本中的实例是独立同分布获得的。但是,根据PAC学习保证,我们并不需要确切知道实例的概率分布是什么。神经网络就是典型的在线学习分类方法。最简单,也是最原始的神经原创 2017-10-02 22:15:26 · 760 阅读 · 2 评论 -
训练数据的充分性(1):PAC学习保证
在上一篇博文中介绍了训练错误和实际错误。当训练错误很低,但是实际错误很高时,说明我们构造的分类器出现了过度拟合。出现过度拟合的原因是,我们设计的分类器过于复杂,以至于它可以记录所有的分类数据。这就导致了分类模型的可扩展性极差。因此,分类器的复杂程度是和训练数据规模密切相关的。训练数据规模越大,我们的分类器可以设计的越复杂。相反地,如果训练数据规模很小,复杂的分类器对训练效果有害无利。这就是著名的奥克原创 2017-09-03 12:25:38 · 871 阅读 · 0 评论 -
训练数据的充分性(2):分类器的一致收敛
在上一篇博文中提到,如果训练数据的规模充分大,那么当训练错误为0时,真正错误会趋近于0。这是机器学习训练算法有效性的理论依据。但是,在实际设计模型时,我们很难找到一个分类器,其训练错误为0。为此,本文介绍训练数据充分性的第二个引理。它的结论是当训练数据更大一些时,训练错误与实际错误可以无限接近。这样,我们就可以利用训练错误来估计实际错误了。定理8. 设H\mathcal{H}是一个分类器集合。令ϵ\原创 2017-09-10 19:04:14 · 545 阅读 · 0 评论 -
在线学习与离线学习
机器学习算法可以分成两类。离线学习和在线学习。在离线学习算法中,我们会有一个训练集,这个训练集包含多个训练实例。每个训练实例都认为是以某个概率分布从实例空间中独立同分布地抽取。我们的目标是根据这个训练样本构造一个分类器,使得其真正训练错误最小。‘在在线学习算法中,我们不假设训练数据来自于某个概率分布或者随机过程。当有个训练实例x过来时,我们利用分类器对其进行分类。假设分类器原创 2017-09-17 17:06:46 · 22311 阅读 · 3 评论 -
分类问题的数学定义
机器学习的任务大概可以分为分类和决策两类。当然,这两类问题并没有严格的界限。许多决策问题本质也是在分类。因为所谓决策,是根据当前的环境(输入),筛选出最优的策略。这个最优的策略可以看做是环境输入的类别。但是,决策问题与传统的分类问题不同。1. 通常分类问题预定的类别是有限个,而决策问题的策略集合可能无限。2. 一个输入的类别通常是确定的(即一个输入对应一个类别),可是在决策问题中,一个环境输入对应的原创 2017-08-22 23:00:01 · 7638 阅读 · 0 评论 -
大数定律(4):Hoeffding界
上一篇博文介绍的切诺夫界在实际应用中会比较麻烦,因为随机变量E[esX]E[e^{sX}]的值通常很难求得,就算是求其上界,有时候也是一件难事。下面给出一个简洁但是非常实用的定理。定理6. 对于一族分布在集合{0,1}\{0,1\}上的独立同分布的随机变量X1,X2,...,XnX_1,X_2,...,X_n,假设 Pr{Xi=1}=p\Pr\{X_i=1\} = p 对所有的1≤i≤n1\原创 2017-08-21 20:21:06 · 2218 阅读 · 3 评论 -
大数定律(3):切诺夫界
在上一篇博文中介绍过,Markov不等式要求随机变量取正值。因此,为了使用Markov不等式,需要对原始的随机变量进行改造,需要构造随机变量的函数,这个函数只能取正值。最常见的正值函数有偶数幂函数和指数函数。切比雪夫不等式利用的是幂函数,而本文介绍的切诺夫界利用的是指数函数。定理4. 对于任意给定的随机变量XX,实数aa,以及正实数s>0s>0,都有 Pr{X>a}<e−saE[esX].\Pr原创 2017-08-17 22:31:07 · 6850 阅读 · 0 评论 -
大数定律(2):切比雪夫不等式
Markov不等式有一个很简洁的结果,但是它有一个不近人情的前提条件。它要求随机变量取正值。这通常是没法满足的。为此,我们需要对现有的随机变量进行一些改造,构造一个随机变量的函数。那么什么函数必取正值呢?最常用的是偶次数幂函数,以及指数函数。这就分别得到了切比雪夫不等式和切诺夫界。本文介绍切比雪夫不等式。定理2. 对任意的期望有界的随机变量,都有 Pr{|X−E[X]|>c}≤var(X)c2\原创 2017-07-29 22:11:21 · 9766 阅读 · 0 评论 -
Holder不等式 Minkowski不等式
著名柯西-施瓦茨不等式是证明二范数三角不等式的重要工具。Holder不等式是柯西不等式的推广,它是证明ppp范数三角不等式的重要工具。定义 Rn\mathbb{R}^nRn空间上的ppp范数∣⋅∣p|\cdot|_p∣⋅∣p定义为∣x∣p=(∑i=1n∣xi∣p)1/p。|x|_p=(\sum_{i=1}^n |x_i|^p)^{1/p}。∣x∣p=(i=1∑n∣xi∣p)1/p。这...原创 2019-09-04 18:29:41 · 18858 阅读 · 0 评论