朴素贝叶斯分类器

最新推荐文章于 2024-08-20 10:58:52 发布

weixin_30270561

最新推荐文章于 2024-08-20 10:58:52 发布

阅读量98

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/super-yb/p/11052546.html

版权

上概率论大家都知道这个大名鼎鼎的贝叶斯公式

$P\left ( A\mid B \right )=\frac{P\left ( B\mid A \right )P\left ( A \right )}{P\left ( B \right )}$　　

它是由

$P\left ( A\bigcap B \right )=P\left ( A\mid B \right )P\left ( B \right )=P\left ( B\mid A \right )P\left ( A \right )$

推导过来的。

实际中，朴素贝叶斯分类器解决这样的问题：

1.给定了一有标签样本

X={a₁,a₂,,,a_m,yi} n个观察对象

2.给定一无标签样本x（只有m个特征，无y），求

$P\left ( y_{i}\mid x \right )=max\left \{ P\left ( y_{1}\mid x \right ),P\left ( y_{2}\mid x \right ),,,P\left ( y_{i}\mid x \right ) \right \}$　　

用公式去求解

第一步：根据现有样本X，求出每种标签下，每个特征的概率，即$P\left ( a_{j} \mid y_{i}\right )$，共n*m个

第二步：

$P\left ( y_{i}\mid x \right )=\frac{P\left ( x\mid y_{i} \right )P\left ( y_{i} \right )}{P\left ( x \right )}$,

又分母都一样，所以分子最大，$P\left ( y_{i}\mid x \right )$最大

所以单独算分子，其中$P\left ( x\mid y_{i} \right )$相当于在y_i为条件下，各个特征概率的乘积，表示如下：

$P\left ( x\mid y_{i} \right )P\left ( y_{i} \right )=\left [ P\left ( a_{1}\mid y_{1} \right )P\left ( a_{2}\mid y_{1} \right ),,,P\left ( a_{i}\mid y_{1} \right ) \right ] P\left ( y_{1} \right )\cdot\left [ P\left ( a_{1}\mid y_{2} \right )P\left ( a_{2}\mid y_{2} \right ),,,P\left ( a_{i}\mid y_{2} \right ) \right ] P\left ( y_{2} \right )...=P\left ( y_{i} \right )\prod P\left ( a_{j}\mid y_{i} \right )$

连乘符号后面的部分，用到我们前面算出的n*m个概率

当$P\left ( a_{j}\mid y_{i} \right )=0$,引入Laplace校准平滑

实例：

判断社交账号真假（真实用户、假用户），根据给定的数据集（sample size=10K）选出了三个条目，1.说说数/time，2.好友数/time，3.是否使用真实头像

人工凭经验的将三个条目划分为若干特征

条目1分为a1:≤0.05、a2:0.05＜＜0.2、a3:≥0.2

条目2分为a4:≤0.1、a5:0.1＜＜0.8、a6:≥0.8

条目3分为a7:0=否、a8:1=是

每个样本都已经划分了是否为真假用户（此处要求样本的真实、可靠，否则影响最后的判断）

第一步：下面的P值均为样本计算所得：

第二步：现给定一个无标签样本x（0.1,0.2,0），问该样本是真实用户还是假用户

那么，是真实用户的概率为：P(Y_i|X)->>P(Y_i)P(X|Y_i)=P(Y₁)P(a₁₂|y₁)P(a₂₂|Y₁)P(a₃₁|Y₁) 0.89*0.5*0.7*0.2=0.062

假用户的概率为0.1*0.1*0.1*0.1*0.9=0.0009

所以，是真实用户的概率大于假用户的概率。

转载于:https://www.cnblogs.com/super-yb/p/11052546.html

weixin_30270561

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯分类器

上概率论大家都知道这个大名鼎鼎的贝叶斯公式$P\left ( A\mid B \right )=\frac{P\left ( B\mid A \right )P\left ( A \right )}{P\left ( B \right )}$　　它是由$P\left ( A\bigcap B \right )=P\left ( A\mid B \right )P\left ( B \r...
复制链接

扫一扫