合辑传送门 -->> 数据分析-合辑
目录
贝叶斯公式
P(原因i)这个概率是我们在拿到现象/观测之前,我们对于原因i本身成立的概率的评估。这个通常称为先验概率(Prior probability)。先验概率中的`先',就是拿到观测之前的意思。先验概率依赖于原因i发生的概率,也就是这个原因是否常见。
P(当前的观测|原因i)是在原因i成立时,我们能够观察到该现象出现的概率,通常我们把这个叫做似然概率(Likelihood probability)。这个似然概率描述了原因i能够用来解释当前拿到的现象或观测的程度(解释力度)。解释的越好,那么似然概率就越大。
最后一个,P(当前的观测)这个概率描述了该观测到的现象发生的概率。注意不同的原因i对应的该概率都一样。这意味着,贝叶斯定理最后选择哪个原因,只取决于 P(原因 i)*P(当前的观测|原因 i)
这说明,贝叶斯定理选出的原因,是似然概率P(现象|原因)和先验概率P(原因)的乘积最大的。前者表示了该原因解释当前的现象的力度(解释的好不好),而后者表示了该原因发生的概率(常不常见)。通俗的来说,在一定程度上解释该现象(似然概率较高),并且本身也常见(先验概率较大)的原因最容易胜出。
贝叶斯要解决的问题:
①先验概率:假设袋子里有N颗白球,M颗黑球,伸手摸一把,摸出黑球的概率(也就是实现知道黑白球的分布去计算)
②后验概率:实现不知道袋子里的黑白球比例,而且随手摸一个或几个,观察这些取出来的球的颜色,对袋子中黑白球的比例进行预测
模型比较理论
贝叶斯公式是一种后验概率,表示事情在已经发生的结果下,我们去判断这件事输入哪一类
但在实际问题中我们可能无法获取所有的数据进而也无法得到先验概率和类条件概率,所以我们需要对先验概率和类条件概率进行估计,再利用贝叶斯公式求解。
①最大似然估计
最大似然估计(MLE)是一种重要而又普遍的求估量的统计方法。它使用概念模型。
最大似然估计目的是:利用已知的样本结果,反推最有可能导致这样结果的参数值。
最大似然估计原理是:给定一个概率分布D,假定其概念密度函数(连续分布)或者概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,通过利用fD,我们就能计算出其概率:
但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,然后用这些采样数据来估计θ。
一旦我们获得,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
②奥卡姆剃刀
奥卡姆剃刀(Occam's Razor),是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam)提出的一个解决问题的法则。
可以理解为:如果关于一个或多个现象,有许多种理论都能作出同样准确的解释,那么应该挑选其中使用假定最少的
举个医生诊断的例子:
奥卡姆的剃刀也经常用于医生诊断中。当一个症状可以有多种病症对应时,医生应该首先怀疑的是最普遍的病症。例如,如果发现一个小孩流鼻涕,那么医生应该首先怀疑这个小孩是否患有感冒,而不是某一种罕见的先天性疾病。医学院的学生经常被老师告诫,“当你听到马蹄声的时候,要想到马,而不是斑马(When you hear hoofbeats, think horses, not zebras)。
奥卡姆剃刀,是贝叶斯定理的一种特殊情况。奥卡姆剃刀告诉我们,在多个有相同的解释力的原因中要选出一个简单的;而贝叶斯定理告诉我们更一般的情况,即在解释力和复杂性中找到最好的平衡。
朴素贝叶斯
当我们运用贝叶斯的时候,先验概率可以通过样本数据很容易获得,而似然概率就比较难求
例如我们的观察到的特征有d1、d2、d3、d4、d5等,那我们的似然概率就要写成如下
但如果我们假设每个特征之间是完全条件无关的,即相互独立的,那我们可以将式子简化为
而这个时候我们只需要将每个特征出现的在条件下出现的频率进行统计,再相乘可得到结果。这就是朴素贝叶斯的思想。