- 一、概率公式:
- 条件概率公式:
-
-
- 事件A发生的条件下,事件B发生的概率=事件A和事件B同时发生的概率/事件A发生的概率
- P(AB)=P(A)*P(B|A)
- 事件A和事件B同时发生的概率=事件A发生的概率*事件A发生的条件下,事件B发生的概率
-
-
- 全概率公式:
-
-
- 如果事件A1 A2 A3构成了必然事件Ω,且3个A事件相互独立,并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图:
- 事件B发生的概率 =求和: 事件A发生的概率*事件A发生的条件下事件B发生的概率(如图:椭圆B等于它被事件A划开的3部分的和)
- 如果事件A1 A2 A3构成了必然事件Ω,且3个A事件相互独立,并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图:
-
-
-
- 全概率公式可以理解为拼接部分求整体,而贝叶斯公式理解为拆分整体求某一部分。如下:
-
-
- 贝叶斯公式:(逆全概率公式)
-
- 以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。
- P(B)带入全概率公式
- P(A1B)带入条件概率公式的变形
- 以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。
-
- 得到贝叶斯公式
- 二、朴素贝叶斯
- 定义:
- 在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立(朴素)下运用贝叶斯定理为基 础的简单概率分类器。
- 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)
- 高度可扩展的,求解过程只需花费线性时间
- 定义:
-
- 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。
- 案例理解:根据肤色(黑,黄),头发(卷,直)预测人是属于亚洲还是非洲地区。
- 朴素:假设特征间是独立的(忽略肤色和发型的联系)。从而变成了“低配版的贝叶斯模型”,称 为“朴素贝叶斯”。
- 优点是可以减少需要估计的参数的个数;缺点是会牺牲一定的分类准确率。 2*2*2
- 贝叶斯模型的参数数量是指数型的;而朴素贝叶斯的参数数量是线性的。2*(2+2)
- 朴素贝叶斯计算公式:
- 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。
-
-
- 拉普拉斯平滑:
- 由于朴素贝叶斯公式中有一个缺陷:当某一个参数的概率值为0时,整个计算结果会为0,从而影响到预测结果。
- 拉普拉斯平滑:
-
-
-
-
- 以上图为例:在分子上加一个 λ,分母用标签数乘以 λ,这是为了保证‘亚洲’概率+‘非洲’概率的计算结果是1
- 在随机变量各个取值的频数上赋予一个正数,当值 ,称为拉普拉斯平滑。
-
-
- 三、特征工程—词频统计
- (一)TF (Term Frequency 词频)
- TF 词频,表示一个单词在文本中出现的频率,一般认为出现频率越高,该单词越重要。
- TF一般会归一化处理用以防止它偏向更长的文件:TF= 词频 / 文本总的单词数
- (一)TF (Term Frequency 词频)
-
- (二)TF- IDF (Inverse Document Frequency 逆向词频)