数据挖掘week3

最新推荐文章于 2024-08-15 18:59:15 发布

垆边人似月v

最新推荐文章于 2024-08-15 18:59:15 发布

阅读量252

点赞数

分类专栏：数据挖掘课程笔记文章标签：数据挖掘概率论机器学习

本文链接：https://blog.csdn.net/qq_44169095/article/details/120667814

版权

数据挖掘课程笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一.决策树
在这里插入图片描述

二.贝叶斯分类

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

1.贝叶斯公式的推导
（1）条件概率公式
设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率为：

P(A|B)=P(AB)/P(B)

（2）乘法公式
由条件概率公式得：

P(AB)=P(A|B)P(B)=P(B|A)P(A)
上式即为乘法公式；

乘法公式的推广：对于任何正整数n≥2，当P(A1A2…An-1) > 0 时，有：
P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)

（3）全概率公式
如果事件组B1，B2，… 满足：
1.B1，B2…两两互斥，即 Bi ∩ Bj = ∅ ，i≠j ， i,j=1，2，…，且P(Bi)>0,i=1,2,…;
2.B1∪B2∪…=Ω ，则称事件组 B1,B2,…是样本空间Ω的一个划分

      设 B1,B2,...是样本空间Ω的一个划分，A为任一事件，则：

在这里插入图片描述

       上式即为全概率公式

全概率公式的意义在于，当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,…)的计算较为简单时，可以利用全概率公式计算P(A)。思想就是，将事件A分解成几个小事件，通过求小事件的概率，然后相加从而求得事件A的概率，而将事件A进行分割的时候，不是直接对A进行分割，而是先找到样本空间Ω的一个个划分B1,B2,…Bn,这样事件A就被事件AB1,AB2,…ABn分解成了n部分，即A=AB1+AB2+…+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi)，由加法公式得

P(A)=P(AB1)+P(AB2)+…+P(ABn)
=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)P(PBn)

与全概率公式解决的问题相反，贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因（即大事件A已经发生的条件下，分割中的小事件Bi的概率），设B1,B2,…是样本空间Ω的一个划分，则对任一事件A（P(A)>0),有

在这里插入图片描述

上式即为我们最终推导的贝叶斯公式。其中：p(Aj)为先验概率（所谓先验概率就是根据以往的经验在事物未发生前，对事物的一个预期），p(B|Aj)为后验概率（即在Aj发生的条件下，事件B发生的概率）。

2.贝叶斯决策理论
最大后验概率（MAP）
我们利用最大后验概率的类别作为预测结果。
在这里插入图片描述

风险
我们在计算概率时难免会犯错，那么我们犯错的可能性可以用如下的方法来进行评估：
在这里插入图片描述

可以这样理解，如果我们的决策是y1，我们可以去观察我们最后结果是y2的可能性有多大，将这个概率作为我们进行y1决策所犯的风险。通俗来说，如果决策是今天下雨，那么今天不下雨的概率就是所犯的风险。对于反之亦然。
最终，根据上述的MAP理论，我们会将较大的值作为我们的决策，儿剩下较小的值作为犯错的风险（即有多大的概率犯错）。

损失
我们将不同错误带来的损失记为λij，它的意思就代表着，如果真实值为j的情况下，将它预测的结果为i。
我们再来了解两个概念，具体如下：
（1）期望损失
在这里插入图片描述

其中，当预测结果为i时，用预测结果为j的概率（即之前所述的结果为i时的风险）乘上损失，即得到了所谓的期望损失。

（2）0-1条件风险
在这里插入图片描述

最终我们得到的贝叶斯最优分类如下式：
在这里插入图片描述

3.朴素贝叶斯算法
朴素贝叶斯算法指一种基于概率知识并且借助贝叶斯公式的一种分类算法。它在许多场合也有着广泛的应用。之所以称之为 “朴素”，是因为朴素贝叶斯是整个贝叶斯算法中较为简单和“极端”的一个分支。所谓的朴素指：它的各项假设特征之间具有绝对的条件独立性，互相没有干扰。
根据贝叶斯定理，对一个分类问题，给定样本特征x，样本属于类别y的概率是：
在这里插入图片描述

在这里，x是一个特征向量，将设x维度为M。因为朴素的假设，即特征条件独立，根据全概率公式展开，贝叶斯公式可以表达为：
在这里插入图片描述

有些人可能会弄不清楚这里为什么会多出来一个连乘的符号呢，其实中间跨越了一步，是因为朴素贝叶斯既定了各项特征假设之间具有相互独立性。举个例子：比如说就拿朴素贝叶斯运用最广的文本分类领域。试想一下我想判断一个邮件是否为垃圾邮件。会出现P（‘我是骚扰信息’|‘垃圾邮件’），根据条件独立假设，可以转换成p(‘我’|’垃圾邮件’)*p(‘是’|’垃圾邮件’)*p(‘骚扰信息’|’垃圾邮件’)。这就是这里连乘符号的由来。
整个算法的运行，我们可以分为3步：

（1）参数估计
对于训练集TrainingSet= {(x1,y1),(x2,y2),…,(xN,yN)}{(x1,y1),(x2,y2),…,(xN,yN)} 包含N条训练数据，其中 xi=(x(1)i,x(2)i,…,x(M)i)Txi=(xi(1),xi(2),…,xi(M))T是M维向量， yi∈{c1,c2,…cK}yi∈{c1,c2,…cK}属于K类中的一类。
参数估计我们要去估算两个参数：
1）计算公式中的先验概率p（y=ck）
在这里插入图片描述

其中I(x) 为指示函数，若括号内成立，则计1，否则为0。
2）计算分子中的条件概率，设M维特征的第j维有L个取值，则某维特征的某个取值ajl，在给定某分类ck下的条件概率为：
在这里插入图片描述

经过以上的参数估计，我们就得到了模型的基本已知参数。

（2）分类
这样贝叶斯分类器就可以写成：
在这里插入图片描述

由于分母对于对于所有的类都相同，所以我们可以不用去考虑分母，这样一来，就变换成：
在这里插入图片描述

（3）拉普拉斯平滑
在第一步参数估计中，我们可能会遇到这样的问题，就是如果我们的两个参数估计出现了0怎么办，我们可以采用一种叫做拉普拉斯平滑的方法，简而言之就是给分子和分母分别加上一个常数，这样并不会影响总体的概率情况，反而还可以避免0的情况出现。其中当λ=0时，所得到的参数估计为极大似然估计，如下所示：
在这里插入图片描述
其中K为类别的个数。

在这里插入图片描述
Lj 是第 j维特征的最大取值。

举个例子，比如天气对是否出门打网球的影响。如下所示：

Day Outlook Temperature Humidity Wind PlayTennis
1 sunny hot high weak no
2 sunny hot high strong no
3 overcast hot high weak yes
4 rain mild high weak yes
5 rain cool normal weak yes
6 rain cool normal strong no
7 overcast cool normal strong yes
8 sunny mild high weak no
9 sunny cool normal weak yes
10 rain mild normal weak yes
11 sunny mild normal strong yes
12 overcast mild high strong yes
13 overcast cool normal weak yes
14 rain mild high strong no

outlook
yes no P(yes) P(no)
sunny 2 3 2/9 3/5
overcast 4 0 4/9 0/5
rainy 3 2 3/9 5/5
total 9 5 1 1

temperature
yes no P(yes) P(no)
hot 2 2 2/9 2/5
mild 4 2 4/9 2/5
cool 3 1 3/9 1/5
total 9 5 1 1

humidity
yes no P(yes) P(no)
high 3 4 3/9 4/5
normal 6 1 6/9 1/5
total 9 5 1 1

wind
yes no P(yes) P(no)
weak 6 2 6/9 2/5
strong 3 3 3/9 3/5
total 9 5 1 1

prior
play P(yes)/P(no)
yes 9 9/14
no 5 5/14
total 14 1

这时我们给出两组测试数据
第一组测试数据为x=(sunny,hot,normal,weak)
根据我们之前的公式：

此时我们可以判断在次情况，我们更偏向于出门打网球。

第二组测试数据为x=(overcast,hot,normal,weak)
此时，在计算中我就会发现概率出现了0的情况，我们就采用拉普拉斯平滑技术将overcast的概率进行转换，转换成如下的数据：
outlook
yes no P(yes) P(no)
sunny 2+1 3+1 3/12 4/8
overcast 4+1 0+1 5/12 1/8
rainy 3+1 2+1 4/12 3/8
total 9+3 5+3 1 1

之后我们就可以继续按照第一组测试数据的计算方法继续计算，得到贝叶斯分类的最优结果。
此上是主要用于解决离散的问题，在解决连续问题是也可以采用：

垆边人似月v

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘week3

一.决策树二.贝叶斯分类贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。1.贝叶斯公式的推导（1）条件概率公式设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率为：P(A|B)=P(AB)/P(B)（2）乘法公式由条件概率公式得：P(AB)=P(A|B)P(B)=P(B|A)P(A)上式即为
复制链接

扫一扫

专栏目录