前段时间在学习期间学习了机器学习和模式识别相关的内容,今天真理梳理一下知识点,用做自己的参考资料和学习资料,同时,若整理的资料中出现错误还恳请各位批评指正,共同学习,共同进步。由于自己基础比较差,整理了两部分的内容,一部分为本部分整理的基础知识点内容,归属为“PRML基础”,另一部分为“PRML学习”,希望有兴趣的读者共同交流进步。
一.概率理论
概率理论提供了一个量化与处理不确定性的数学框架,这是模式识别的基础,与决策论结合可以让我们做出最优的选择。
简单例子:
红箱子:2 个苹果,6 个橘子,蓝箱子:3个苹果 1 个橘子随机的取一个箱子再从里面取一个水果再放回原处,假设取红箱子的、概率是40%,蓝箱子的概率是 60%,而取水果的概率是相同的,B代表箱子事件, 取值是 r 或者 b,F代表水果时间取值是 a or o,定义事件概率就是发生次数/总试验次数;如下图:
根据定义我们可以得到以下:这个例子下的贝叶斯理论解释:假设没有给出水果事件来求选择了哪个箱子, 我们目前知道箱子事件的概率p(B),这个概率叫做先验概率(prior probability)因为还没有观察水果的选择情况。一旦知道了选择哪个水果,就可以求出p(B|F),这个叫做后验概率(posterior probability)因为是在观察了水果之后确定的,后验概率往往比先验概率更加准确。p(X,Y)=p(X|Y)p(Y)则x 与 y独立 (independent) (比较重要的条件)
计算过程如下:
这里同时计算了上述所说的概率和先验概率,上面说这个是通过贝叶斯理论来得到的,那么通过贝叶斯理论可以完成后验概率的计算问题:
对此可以通过下面这个例子来解释:
试验
N
次每次取
x
于
y
,
x
发生了
x
i
的次数记为
c
i
,
y
i
的发生次数记为
r
i
,联合发生次数记为
n
ij
,这个是联合概率(
joint probability)
有时候,x,y也叫做边缘概率:
条件概率(
conditional probability
)可以由上图的点与列计算得出,他们之间的关系如下:
1.概率密度
概率密度(probability density)定义:当实数值x 落在区间(x,x+ax)的概率是p(x)*ax且ax趋向于0,p(x)就是x 的概率密度。
其满足以下条件:
结合下面的图来理解:
对于非线性变化的变量, 可以通过函数带入方式从简单函数变化为变量的概率密度函数。 即
这是概率分布函数的定义,从上面的公式中可以看出,
概率密度的最大值要依赖于变量的选择。 离散与连续型的函数的概率密度:如果是离散型
的
p(X)
叫做离散聚集函数(
probability mass function
) 。