模式识别与机器学习
XDWX
逆水行舟,不进则退。
展开
-
AIC、BIC、QAIC及HQ准则
很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法——赤池信息准则 (Akaike Inform...转载 2019-04-07 21:32:40 · 27004 阅读 · 0 评论 -
极大似然简介
极大似然法的思想始于高斯的误差理论,在各种估计方法中较为优良,它属于频率学派的点估计法的一种。频率学派的参数估计方法频率学派的参数估计方法,不管是矩估计,极大似然法,区间估计或者其他方法,在抽取样本之前对参数θ\thetaθ 没有任何了解。这里和贝叶斯方法区别一下:Bayesian的基本观点是在抽取样本之前,就对参数 θ\thetaθ 有了一定的知识,叫做先验知识。这是Bayesian和fr...转载 2019-04-15 15:57:24 · 348 阅读 · 0 评论 -
为什么高斯分布概率密度函数的积分等于1
一维高斯分布的概率密度如下:N(x∣μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}(1)N(x \mid\mu ,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\} (1)N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}(1)现在要证明为什么式(1...转载 2019-04-15 18:08:23 · 10310 阅读 · 1 评论 -
搞懂多维高斯分布的由来
PRML的2.3节一开始就给出了多维高斯分布的形式:N(x∣μ,Σ)=1(2π)d2∣Σ∣12exp{−12(x−μ)TΣ−1(x−μ)}(1)\begin{aligned}\Bbb{N}(\mathbf x|\mathbf{\mu},\mathbf\Sigma) &=\frac{1}{(2\pi)^{\frac{d}{2}}\left|\Sigma\right|^\frac{...转载 2019-04-15 17:53:44 · 3749 阅读 · 1 评论 -
KL散度理解
1. 概念考虑某个未知的分布 p(x),假定用一个近似的分布 q(x) 对它进行建模。如果我们使用 q(x) 来建立一个编码体系,用来把 x 的值传给接收者,那么由于我们使用了q(x)而不是真实分布p(x),平均编码长度比用真实分布p(x)进行编码增加的信息量(单位是 nat )为:KL(p∣∣q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln[q(x)p(...转载 2019-04-15 16:19:13 · 5709 阅读 · 0 评论 -
信息熵与编码定理
惊奇度与信息量定性描述惊奇度:一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度信息量:一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇,它所含信息量就越大对于一个掷骰子的试验,假设E代表掷出点数为偶数(概率为1/2),我们对于事件E发生的惊奇程度并不大,但是当E代表掷出点数为6(概率为1/6),我们的惊奇程度就会很大。同样的我们会认为,“明天太阳会从东边升起”这句话...转载 2019-04-08 14:12:11 · 2434 阅读 · 0 评论 -
算法中各种距离的介绍
一、欧氏距离(Euclidean Distance):欧氏距离是最容易直观理解的距离度量方法,我们小学、 初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。二维平面上点a(x1,y1)a(x_1,y_1)a(x1,y1)与b(x2,y2)b(x_2,y_2)b(x2,y2)间的欧氏距离:d12=(x1−x2)2+(y1−Y2)2d_{12}=\sqrt{(x_1-x_2)...转载 2019-04-08 11:23:50 · 851 阅读 · 1 评论 -
贝叶斯统计学简介
本文的要点如下:简单介绍贝叶斯统计学的历史背景什么是统计推断Bayesian和frequentist的主要区别先验分布和后验分布历史背景1763年,也就是英国学者Bayes去世后两年,他的一篇传世遗作发表了,其中提出了Bayes公式。Bayes公式从形式上看,它只不过是条件概率定义的一个简单的推论**,这个“简单的公式”为什么会导致统计学中一个学派的崛起。**这是因为贝叶斯在文章中...转载 2019-04-15 15:35:19 · 3263 阅读 · 0 评论