PRML学习笔记(1)

前言:

看Pattern Recgonition and Machine Learning 有一周多了,但总觉得进度比较慢。特建立一个长期的博客来促进自己的学习。督促自己学习是一方面,同时我希望得到更多大牛的批评和指正,也希望我的文章对于同是在看这本书的同志有所帮助。每个笔记将对应书中一章。

 

第一章是全书的基础,介绍了机器学习和模式识别的一些基本概念和所需基础知识。第一章的重点是概率论(probability theory)部分。这部分通过用概率论做为工具,解决多项式曲线拟合的问题,介绍了贝叶斯概率(Bayesian probability)和高斯分布(The Gaussian distribution)这两个概念,以及贝叶斯曲线拟合(Byesian curve fitting)的基本方法。中间对比了经典概率(the classical or frequentist interpretation of probability)和贝叶斯概率,基于误差方程(error function)方法,也对于过度拟合(over fitting)的问题有了初步的一些讨论。第一章的还有一个重要的部分是决策论(decision theory)。概率论指导我们推理出事件的不确定性也即概率,但是怎样行动才是最“好”?这就是这一部分关注的内容。这部分中重点介绍了分类错误率(misclassification rate),期望损失(expected loss)和拒绝选项(the reject option)3个与做出最“好”决策息息相关的概念。第一章剩下部分对于模型选择,高维诅咒以及信息论的一些基本概念进行了简要介绍。第一章对于刚入门的人来说十分重要,同时书也写得很深入浅出,是必须仔细阅读的。阅读此章需要有线性代数和微积分(包括多元函数微积分)的一些基本概念。

 

 

重要知识点总结

1.       模式识别中的机器学习方法(machine learning approach ),以手写数字的识别为例

1.1首先,每个手写的数字将被抽象成一个向量x_i。有时也叫样本。抽象的过程称为预处理(pre-processing stage,也被称为特征提取(feature extraction)。每个特征是向量的一维。特征提取的好坏将影响后续过程处理的速度。

1.2 然后构建训练集(training set)。训练集包括向量的集合x={x_1,..x_n}以及每个向量对应的目标向量(target vectort_i。目标向量是分类的类别的数学表示。在训练集中的目标向量是已知的,或者人为标定的。在这里就是手写的数字实际上表示的数字。

1.3 通过训练(training)得到模型(model),数学表现是一个函数yx)。函数的参数是通过训练集和相应的机器学习算法(machine learning algorithm)得到的。函数的输入是手写数字抽象成的向量,输出是“可能”表示的数字的目标向量表示。

 

2.       机器学习问题的分类

根据目标向量是否已知,分为监督学习问题(supervised learning problem)和无监督学习问题(unsupervised learning problem),无监督学习的目标之一是聚类(clustering)即找到相似的数据样本。

根据目标向量中是否只有离散的参数,分为分类问题(classification problem)和回归问题(regression)。

3.       增强学习(reinforcement learning

4.       曲线拟合中的误差方程

书中以平面上的二项式曲线为例给出了以下的误差方程:

公式1公式1

误差方程包括两个部分,加号前面是直观上的曲线上目标点和实际观察到的目标点的误差的平方和。加号后面是用于避免过拟合(over-fitting)。在这个角度来说,后面的项的形式并不太重要,只要是w的函数就可以,这样,最小化最小化时,就不会那么容易(不能说不会,后项的函数形式还是要谨慎选择。举一个极端的例子,后项和前项一样时,加入后项实际和只有前项的结果是一样的)得到使曲线上的点与实际观察到的点完全吻合()的情况,即过度拟合的情况。在这里可以这样理解:与观察到的目标点相近的对于曲线有很多,有的曲线的参数波动很大,即很大,有的曲线的参数波动较小,即很大。直觉上来说,或者依照奥卡姆剃刀原则,参数波动较小的曲线是比较简单的模型,所以是比较常见的,因此我们加入后得到的曲线就是“比较常见”而且又比较符合原来的观察数据的曲线。

 

5.       联合概率(join probability)和条件概率(conditional probability

联合概率和条件概率是两个对于初学者比较容易混淆的概念。特别是在使用这样一种中文的解释的情况下:

联合概率是两个或以上事件同时发生的概率。条件概率是在若干个事件发生的情况下一个事件的发生概率。过去我就是以这样一种观点来理解的。这样的理解有其好处,那就是很容易从现实中找到一些对应的实例,很直观。但是这个概念中间凭空加入了一个时间的概念,这在概率中其实是不需要的。这导致在许多不涉及到时间概念的概率理论的应用场景时,比如曲线拟合,我很难区分条件概率和联合概率。如果按照贝叶斯的观点,将概率理解成不确定性的度量,那么联合概率和条件概率这两者的区别就不依赖于“时间”了。联合概率是观测到两个随机变量的值的可能性。条件概率是在若干个随机变量的值确定的条件下观测到一个随机变量值的可能性。前者是“不确定和不确定”,后者是“确定和不确定”。二者的区别回到概率的本质-不确定性。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值