《机器学习》课程使用的是Kevin P. Murphy所著的《Machine Learning A Probabilistic Perspective》这本英文原版教材,这本书从概率论这个数学角度独特阐述了机器学习的所有问题,需要较强的数学基础。因为是英文教材,特开一个专题在此记录自己的学习过程和各种问题,以供备忘和举一反三之用。
在讲解了机器学习的概述之后,第二章紧接着就开始讲述概率论的知识,通过后续的学习会发现,这些概率论知识有部分在本科的概率论课程中学习过,但是有很多其他部分是没有在现有的本科阶段甚至研究生阶段也很少涉及的知识点,在此做一个总结。
1、概率学派
频率学派:概率代表的是对一个试验重复执行N次,所关注的事件发生的频率。这里要求的是需要进行重复试验,这对于一般可重复执行的试验是比较好的标识方式,这也成为实验概率。
贝叶斯学派:概率代表的是人们对一个未知事件发生的不确定性的一种表征,这里不要求对这个事件进行重复试验。同时对于任何未知的事件,都可以用一个概率来表征人们对它的认识。
通过上述比较可以发现,对于某些不能重复试验的事件(比如生成灯管的工厂生成的灯管的平均使用寿命,进行重复实验是不现实的),使用贝叶斯概率的解释更加合理。因此在整个学习中都以贝叶斯学派为准。
2、基本知识
概率:事件空间Ω到实数域R的映射,对于每个事件A,都有一个实数p(A)与之对应,同时满足:(1)非负性,p(A)>=0;(2)规范性,p(Ω)=1;(3)可列可加性:p(A1+A2+…An) = p(A1)+p(A2)+…p(An)其中A1、A2…An都是互补相容的事件。
基本概率公式:
全概率公式和贝叶斯公式:
通用的贝叶斯分类器: