机器学习朴素贝叶斯算法

最新推荐文章于 2020-05-18 16:02:21 发布

黎明之道

最新推荐文章于 2020-05-18 16:02:21 发布

阅读量223

点赞数 1

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/sjjsaaaa/article/details/106104807

版权

机器学习专栏收录该内容

38 篇文章 26 订阅

订阅专栏

朴素贝叶斯算法

概率基础：

定义：一件事情发生的可能性
联合概率：包含多个条件，且所有条件同时成立。
公式：p（A，B）=p（A）*p（B）

条件概率：就是事件A在另外一个事件B已经发生条件下发生概率。
公式：p（A|B）
特性：P（A1，A2|B）=P（A1|B）P（A2|B）
注意：此条件概率的成立，是由于A1，A2相互独立的结果。
在这里插入图片描述

女神喜欢的概率：
4/7
职业时程序员并且体型匀称的概率：
p（程序员，匀称）=3/7*4/7=12/49
在女神喜欢的条件下，职业是程序员的概率：
1/2
在女神喜欢的条件下，职业是产品，体重是超重的概率：
p(产品，超重|喜欢)=（1/2）*（1/4）=1/8

朴素贝叶斯算法：

朴素：条件独立。

公式：在这里插入图片描述

P（科技|词1，词2，词3…）=P（f1，f2，f3|科技）p（科技）/ p（w）

P（娱乐|词1，词2，词3…）=P（f1，f2，f3|娱乐）p（娱乐）/ p（w）
在这里插入图片描述

例：

在这里插入图片描述
现有一篇预测文档：出现了影院，支付宝，云计算，计算属于科技、娱乐的类别概率？
解答：
属于科技的概率：
P(科技|影院，支付宝，云计算)=P(影院，支付宝，云计算|科技)P(科技)=（8/100）（20/100）（63/100）（30/90）=0.00456109
属于娱乐的概率：
P(娱乐|影院，支付宝，云计算)=P(影院，支付宝，云计算|娱乐)P(娱乐)=（56/121）（15/121）（0/121）（60/90）=0

注意：属于某个类别为0，合理嘛？当然不合理，解决办法：拉普拉斯平滑系数。

拉普拉斯平滑

公式：
在这里插入图片描述

a为指定的系数一般为1，m为训练文档中统计出的特征词个数。
所以属于娱乐的概率：
P(娱乐|影院，支付宝，云计算)=P(影院，支付宝，云计算|娱乐)P(娱乐)=（56+1/121+14）（15+1/121+14）（0+1/121+14）（60/90）=0.001

sklearn朴素贝叶斯实现API：

sklearn.naive_bayes.MultinomialNB(alpha=1.0)

朴素贝叶斯分类
slpha:拉普拉斯平滑系数

算法案例：

sklearn20类新闻分类。
20 个新闻组数据集包含20个主题的18000个新闻组帖子。

流程：

加载20类新闻数据，并进行分析
生成文章特征词
朴素贝叶斯estimator流程进行预测

源代码：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


def naviebayes():
    """
    朴素贝叶斯进行文本分类
    """
    #导入文本
    news=fetch_20newsgroups(subset="all")
    #进行数据分割
    x_train,x_test,y_train,y_test=train_test_split(news.data,news.target,test_size=0.25)
    
    #对数据集进行特征抽取
    tf =TfidfVectorizer()
    
    #以训练集当中的词的列表进行每篇文章重要性统计
    x_train=tf.fit_transform(x_train)
    x_test=tf.transform(x_test)
    
    #进行朴素贝叶斯算法的预测
    mlt=MultinomialNB(alpha=1.0)
    print("预测文章的类别：",x_train)#查看类型
    mlt.fit(x_train,y_train)
    y_predict=mlt.predict(x_test)
    
    # 得出准备率
    print("准确率：",mlt.score(x_test,y_test))
    return None

if __name__=="__main__":
    naviebayes()

运行：

在这里插入图片描述

总结：

朴素贝叶斯：文本分类。但是使用神经网络效果要更好一些。

训练集误差大，结果肯定不好。
不需要调参数。

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。
分类准确度高，速度快。

缺点：

由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好。
训练集当中去进行统计词这些工作，会对结果造成干扰。

黎明之道

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习朴素贝叶斯算法

朴素贝叶斯算法概率基础：定义：一件事情发生的可能性联合概率：包含多个条件，且所有条件同时成立。公式：p（A，B）=p（A）*p（B）条件概率：就是事件A在另外一个事件B已经发生条件下发生概率。公式：p（A|B）特性：P（A1，A2|B）=P（A1|B）P（A2|B）注意：此条件概率的成立，是由于A1，A2相互独立的结果。女神喜欢的概率：4/7职业时程序员并且体型匀称的概率：p（程序员，匀称）=3/7*4/7=12/49在女神喜欢的条件下，职业是程序员的概率：1/2在女神喜欢
复制链接

扫一扫