Pattern Recognition and Machine Learning 第一章学习小记

标签: 机器学习


一直没有勇气看这本书的英文,直到翻译了一篇论文以后,发现看英文其实只要抓关键词理解就可以明白个大概。再次感谢扇贝帮助我复习词汇,以及PRML中文翻译的PDF……


前言

第一章作为绪论部分,对机器学习需要的基础知识作了铺垫,从课后的习题来看,需要用到高等数学、数学分析、概率与统计等一大波数学知识,这本书在做题时会引导性地给出证明过程,很友好。
以这些知识为基础,主要介绍了概率论、决策论、信息论在机器学习中的应用。
以一组观测数据的拟合作为目标,套了各种理论都能自洽,从而自圆其说。

示例部分

类似于高中物理实验,测出一系列数据,描点连线,算出系数。当然,以前的规律我们都事先推导出来了,做实验只是为了验证。现在如果不知道任何提示,如何知晓当中的规律(懒人最希望计算机来做这件事),便是机器学习要完成的事。

目标
学习数据内在的规律
要点
1. 规定误差函数(采用了方差),验证最小值是唯一的;
2. 影响误差的因素:训练集(越大越好,不够大就交叉验证)、阶数(有最适宜的中间值)、λ(避免参数过拟合引入,有最适宜的中间值)

后面的理论中会反复出现示例的重解,一方面验证了初始方法的合理性,另一方面又说明了各个理论是相通的。


概率论部分

概率论中经常出现的概念有:随机变量、边缘化、条件概率。这三者对应了对象、加法和乘法。所以概率论还是数学界的成员。在乘法和加法的作用下,可以推出贝叶斯定理,作为全书的灵魂定理,与之相关的概念为:先验、后验、似然

由于变量维度不同,从单维到多维概率密度、期望、方差、协方差需要稍作改动,基本的运算还是类似的。也可以当作单维是多维退化到最简单的情况吧。

贝叶斯的看法

经典的概率论和贝叶斯概率论在一些观点上存在区别,比如经典概率论是基于可多次重复的实验,给出一些固定参数来描述规律,而贝叶斯则认为参数是不固定的,参数的选择有一个概率分布。

比如在实验开始之前,可能会有好几套不同的参数 θi 对应不同模型,因此到底选择哪个模型,我们给出选择某个参数的概率 p(θi) ,称为先验。在做了实验以后得到了数据集 D ,知道了各个参数能产生这样的数据的概率为p(D|θi),即似然。数据的指认使得每个参数的可靠度发生了变化(证人的指证让某些犯罪嫌疑人具有更高的可疑性),选择某个参数的概率 p(θi|D) ,称为后验。

由著名的贝叶斯定理,有

p(θi|D)=p(θi)·p(D|θi)p(D)
其中 p(D) 跟真实的参数有关(无从得知真实参数),是一个常量,因此可以得到
p(θi|D)p(θi)·p(D|θi)
×
所以需要不断地加入数据来训练参数。

高斯分布

作为自然界最常见的分布,实验室也摆脱不了高斯分布,即正态分布(从高中数学老师分析成绩的时候,就开始知道这种分布了吧……)在复习它的归一化、期望、方差的时候,就是纯粹的数学积分式了,感觉单纯从头积分比较耗时1

样本估计时,需满足数据是独立同分布的(i.i.d),似然为

Πp(xi|μ,σ2)
最大似然得到参数,分别对 μ,σ2 求偏导为零,可得到真实的均值和方差与样本均值和方差的关系。要注意的是,样本方差总是比真实方差略小。为了得到无偏估计,还要乘 NN1 ,但是仍会造成偏移,反而会过拟合。当样本数量足够大,则离真实越接近。

回顾示例

重新对一开始的例子进行拟合,目标是对于新的输入x,给出合适的输出t。这里假设输出t服从高斯分布,而不是一个固定的值,即 N(t|μ,σ2),μ=y(x,w),σ2=β1

过程如下:
1. 由数据集给出似然函数 ln p(t|x,w,β) 表达式
2. 求出最大似然的参数 wML,βML
3. 给出目标函数表达式,可以得到x与t的关系

上面给出了最大似然估计(Maximum likelihood estimator),抽象的公式表示如下:

Likelihood  L(θ)=P(D|θ)=ΠiP(xi|θ)
θ=argmax L(θ)=argmax log L(θ)=argmax Πilog P(xi|θ)

根据贝叶斯理论,参数不应该是固定的,也服从概率分布 N(w|μ,σ2)μ=0,σ2=α1I ,用 α 控制w的大小,避免过拟合,对原来的过程作修改。最大化参数后验(MAP)求出参数的大小。由

×
由于概率值一般都很小,N很大的时候这个连乘的结果非常小,容易造成浮点数下溢。所以我们通常取对数,即得到
ln()ln()+ln()
因此仍旧可以用到改进前最大似然的参数。

该过程的表达式和前面提到的误差函数是等价的,说明贝叶斯的这套理论很正常。

书上还给丧心病狂地出了不需要 wML,βML 的表达式,直接从训练集到目标函数建立了函数关系,实际计算起来数据量比较大吧……

维度灾难

高维下建模的参数数目正比于维数次方,难以计算。且单位球体积中,最外层球壳密度在不断变大,球密度最大处也在不断外移2
数学渣难以理解的是高维下“球”、“立方体”的积分,所以难以推出高维空间概率密度。

解决高维问题,方法有:
1. 降维到低维数据来解决
2. 变化量用差值分析

目前还是表示懵逼……


决策论部分

在概率论的帮助下进行决策,一般是为了解决分类问题。后面虽然讨论了回归问题,但套得有点生硬。

分类问题要先划分多个决策区域 Ci 和边界,当存在k使得任意的j都满足 p(Ci|x)p(Cj|x) 时,就将x划分到 Cj ,同时x真实的类别是到 Rk ,当 k=j 时表示分类正确,反之则分类错误,产生代价 Lkj ,作为对应分类概率的权重。总损失的期望为

E[L]=kjLkjp(x,Ck)dx
要使得上式最小,即要使
kLkjp(x,Ck)dx
最小。为了防止模棱两可的情况被误判,设定阈值 θ ,当 max p(Ck|x)θ 时,重新判断。

对于多变量,当两个输入 xI,xB 相独立时,可得到

p(Ck|xI,xB)p(Ck|xI)p(Ck|xB)p(Ck)

采用决策论分类时,也是要先推断(即训练学习)再做决策。有三种方法得到决策:
1. 生成式法: p(x,Ck)p(x)p(x|Ck)p(Ck|x)
2. 判别式发,直接从数据求 p(Ck|x)
3. 判别函数,不用概率,直接进行分类

看到这里概念比较多,主要是因为太多说明而没有公式……套到回归问题上的时候也比较诡异哦?使得损失函数最小有两种方法:
1. 直接求关于y(x)的偏导为零
2. 平方项进行错位加减后拆项3
嫌平方项不够普遍的,直接上Minkovski损失


信息论部分

信息来自小概率事件,大概率事件因为太普遍而没有信息价值。早期定义了事件x发生的信息量

h(x)=log2p(x)
H[x]=xp(x)log2p(x)
应用于编码当中,使得高频信息用较短编码来编,提高了传输效率。

在平衡热力学中,波尔兹曼也推出了熵,记得高中物理是有微观下的推导,同时作了Stirling近似(疑问4),这里

H[p]=ip(xi)ln p(xi)
对于离散变量,由 Lagrange乘数法得最大熵分布是均分布,且 H[p]ln M ;对于连续变量,用 Lagrange乘数法解决带限制的最大化问题,且熵改写到积分形式,称作 微分熵
H[x]=p(x)ln p(x)dx12{1+ln(2πσ)}
求得高斯分布是最大熵分布。求解过程中涉及到 变分法求极值 5

和概率论中的条件概率相对应,有条件熵

H[y|x]=p(y,x)ln p(y|x)dy dx

衡量假设的分布q与真实分布p的关系,有 相对熵,也称为 散度,反应了额外的信息量
KL(p||q)=p(x)lnq(x)p(x)dx
恒大于等于零,当散度为零时,即p和q完全一样。
借助散度的概念,令
I[x,y]=KL(p(x,y)||p(x)p(y))
作为 互信息,当为0时,表示 p(x,y)=p(x)p(y) ,即x与y相互独立。

这部分的推导难点在于Lagrange乘数法,以及多重积分。


课后题还是值得一做的,做了对公式理解更深了。



  1. 不知道用Laplace变换是否更快更强?
  2. 听说这可以用来理解过拟合的现象?
  3. 积分式子也是rio玄妙,一处化为零消了,两处未变?
  4. 在微观推导熵的过程中,有用到Stirling近似的地方,要求N趋于无穷大。但如何保证放入每个盒子的 ni 也趋于无穷大呢?越是小的 ni ,越是不能趋于无穷,但是信息量越大,在熵里不能被忽略,这样到底能不能近似?
  5. 泛函分析的内容,对于函数求微分,不同于一般变量。
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pattern recognition and machine learning是一门涉及到模式识别机器学习的课程,通过这门课程的学习,我对模式识别机器学习有了更深入的了解。 在模式识别方面,我学习了如何使用统计学和概率论的知识对数据进行分析,识别出数据中的规律和模式。通过学习不同的模式识别算法,我了解了如何利用机器来识别图像、音频、文本甚至是生物特征等不同类型的模式。在机器学习方面,我学习了如何利用机器学习算法来训练模型,使得机器可以从数据中学习规律和模式,进而做出预测和决策。 通过学习这门课程,我对机器学习模式识别的应用有了更清晰的认识,比如在图像识别、语音识别、自然语言处理、生物特征识别等领域的应用。我也学习到了如何应用这些知识和技术来解决现实生活中的问题,比如医疗诊断、金融风控、智能驾驶等领域的应用。 另外,通过课程中的实践项目,我有机会动手实践机器学习算法的应用,从数据的处理和特征提取到模型的训练和评估,这些实践使我对课程中学到的理论知识有了更深刻的理解。 总的来说,通过学习Pattern recognition and machine learning这门课程,我不仅对机器学习模式识别的理论和技术有了更深入的了解,也掌握了一些实践应用的技能,对未来在相关领域的发展和应用有了更清晰的思路和认识。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值