标签: 机器学习
一直没有勇气看这本书的英文,直到翻译了一篇论文以后,发现看英文其实只要抓关键词理解就可以明白个大概。再次感谢扇贝帮助我复习词汇,以及PRML中文翻译的PDF……
前言
第一章作为绪论部分,对机器学习需要的基础知识作了铺垫,从课后的习题来看,需要用到高等数学、数学分析、概率与统计等一大波数学知识,这本书在做题时会引导性地给出证明过程,很友好。
以这些知识为基础,主要介绍了概率论、决策论、信息论在机器学习中的应用。
以一组观测数据的拟合作为目标,套了各种理论都能自洽,从而自圆其说。
示例部分
类似于高中物理实验,测出一系列数据,描点连线,算出系数。当然,以前的规律我们都事先推导出来了,做实验只是为了验证。现在如果不知道任何提示,如何知晓当中的规律(懒人最希望计算机来做这件事),便是机器学习要完成的事。
目标
学习数据内在的规律
要点
1. 规定误差函数(采用了方差),验证最小值是唯一的;
2. 影响误差的因素:训练集(越大越好,不够大就交叉验证)、阶数(有最适宜的中间值)、λ(避免参数过拟合引入,有最适宜的中间值)
后面的理论中会反复出现示例的重解,一方面验证了初始方法的合理性,另一方面又说明了各个理论是相通的。
概率论部分
概率论中经常出现的概念有:随机变量、边缘化、条件概率。这三者对应了对象、加法和乘法。所以概率论还是数学界的成员。在乘法和加法的作用下,可以推出贝叶斯定理,作为全书的灵魂定理,与之相关的概念为:先验、后验、似然。
由于变量维度不同,从单维到多维概率密度、期望、方差、协方差需要稍作改动,基本的运算还是类似的。也可以当作单维是多维退化到最简单的情况吧。
贝叶斯的看法
经典的概率论和贝叶斯概率论在一些观点上存在区别,比如经典概率论是基于可多次重复的实验,给出一些固定参数来描述规律,而贝叶斯则认为参数是不固定的,参数的选择有一个概率分布。
比如在实验开始之前,可能会有好几套不同的参数
θi
对应不同模型,因此到底选择哪个模型,我们给出选择某个参数的概率
p(θi)
,称为先验。在做了实验以后得到了数据集
D
,知道了各个参数能产生这样的数据的概率为
由著名的贝叶斯定理,有
高斯分布
作为自然界最常见的分布,实验室也摆脱不了高斯分布,即正态分布(从高中数学老师分析成绩的时候,就开始知道这种分布了吧……)在复习它的归一化、期望、方差的时候,就是纯粹的数学积分式了,感觉单纯从头积分比较耗时1。
样本估计时,需满足数据是独立同分布的(i.i.d),似然为
回顾示例
重新对一开始的例子进行拟合,目标是对于新的输入x,给出合适的输出t。这里假设输出t服从高斯分布,而不是一个固定的值,即 N(t|μ,σ2),设μ=y(x,w),σ2=β−1 。
过程如下:
1. 由数据集给出似然函数
ln p(t|x,w,β)
表达式
2. 求出最大似然的参数
wML,βML
3. 给出目标函数表达式,可以得到x与t的关系
上面给出了最大似然估计(Maximum likelihood estimator),抽象的公式表示如下:
根据贝叶斯理论,参数不应该是固定的,也服从概率分布 N(w|μ′,σ′2),设μ′=0,σ′2=α−1I ,用 α 控制w的大小,避免过拟合,对原来的过程作修改。最大化参数后验(MAP)求出参数的大小。由
该过程的表达式和前面提到的误差函数是等价的,说明贝叶斯的这套理论很正常。
书上还给丧心病狂地出了不需要 wML,βML 的表达式,直接从训练集到目标函数建立了函数关系,实际计算起来数据量比较大吧……
维度灾难
高维下建模的参数数目正比于维数次方,难以计算。且单位球体积中,最外层球壳密度在不断变大,球密度最大处也在不断外移2。
数学渣难以理解的是高维下“球”、“立方体”的积分,所以难以推出高维空间概率密度。
解决高维问题,方法有:
1. 降维到低维数据来解决
2. 变化量用差值分析
目前还是表示懵逼……
决策论部分
在概率论的帮助下进行决策,一般是为了解决分类问题。后面虽然讨论了回归问题,但套得有点生硬。
分类问题要先划分多个决策区域 Ci 和边界,当存在k使得任意的j都满足 p(Ci|x)≤p(Cj|x) 时,就将x划分到 Cj ,同时x真实的类别是到 Rk ,当 k=j 时表示分类正确,反之则分类错误,产生代价 Lkj ,作为对应分类概率的权重。总损失的期望为
对于多变量,当两个输入 xI,xB 相独立时,可得到
采用决策论分类时,也是要先推断(即训练学习)再做决策。有三种方法得到决策:
1. 生成式法:
∑p(x,Ck)→p(x)→p(x|Ck)→p(Ck|x)
2. 判别式发,直接从数据求
p(Ck|x)
3. 判别函数,不用概率,直接进行分类
看到这里概念比较多,主要是因为太多说明而没有公式……套到回归问题上的时候也比较诡异哦?使得损失函数最小有两种方法:
1. 直接求关于y(x)的偏导为零
2. 平方项进行错位加减后拆项3
嫌平方项不够普遍的,直接上Minkovski损失。
信息论部分
信息来自小概率事件,大概率事件因为太普遍而没有信息价值。早期定义了事件x发生的信息量
在平衡热力学中,波尔兹曼也推出了熵,记得高中物理是有微观下的推导,同时作了Stirling近似(疑问4),这里
和概率论中的条件概率相对应,有条件熵
衡量假设的分布q与真实分布p的关系,有 相对熵,也称为 散度,反应了额外的信息量
借助散度的概念,令
这部分的推导难点在于Lagrange乘数法,以及多重积分。
课后题还是值得一做的,做了对公式理解更深了。