机器学习（十）

小小小~

已于 2022-03-27 11:24:42 修改

阅读量98

点赞数

分类专栏：机器学习基础文章标签：机器学习 python 算法

于 2021-08-19 17:10:43 首次发布

本文链接：https://blog.csdn.net/qq_52302919/article/details/119742029

版权

机器学习基础专栏收录该内容

15 篇文章 5 订阅

订阅专栏

朴素贝叶斯算法：

一、概率：

我们往往将一件事情发生的可能性称之为概率，例如我们在初中所学习的：仍一枚筛子，一点的可能性称之为概率。
联合概率：
有多个条件同时成立的概率事件为联合概率：
P(A,B)=P(A)*P(B)
条件概率：
如果两个事件成立的概率相互独立，在一个事件成立的前提下，另一个事件成立的概率称为条件概率：
P(A|B)
P(A1,A2|B) = P(A1|B)*P(A2|B)

二、朴素贝叶斯公式——贝叶斯公式

在这里插入图片描述
朴素贝叶斯算法在文档分类算法中比较常用，针对文档分类的参数对上式进行解释。C为文档的类别，W为文档的特征（词频等特征）。故上式可以变换为以下公式：

C为文档的类别，F1,F2…为文档的特征值。

算法计算流程如下：
（1）、P（C）为某一个文档分类的概率，例如是科技文的概率：
P（C）= 文档类别的数量/总文档的数量

（2）、P(W|C)=为预测文章中特征出现的概率：
P(W|C) = P（F1|C）= Nn/N
Nn为某一词在该文章中出现的次数
N为该文章中所有的数量总和
（3）、 P（F1,F2,…）为：该文档中每个词出现的概率

三、拉普拉斯平滑系数

通过贝叶斯函数我们可知，当某一词在文章中出现的次数为零时，通过贝叶斯公式计算该文章所属的这一类别的概率即为零。但是这篇文章中仍然出现一些与此类别相关的词，故我们需要引入拉普拉斯平滑系数：
P(F1|C) = (Nn+α)/(N+αm)
α为指定的系数，这里我们一般定为1,m为文档中特征词的个数。Nn与N与上式含义一致。

四、代码样例：

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB


def beyas():
    """
    朴素贝叶斯实现文档分类
    :return: None
    """

    # 导入新闻文章数据
    news = fetch_20newsgroups(subset="all")

    # 对数据进行分割
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)

    # 对文章的特征词进行特征抽取
    tfidf = TfidfVectorizer()
    x_train = tfidf.fit_transform(x_train)
    x_test = tfidf.transform(x_test)

    # 运用朴素贝叶斯进行分类
    nb = MultinomialNB(alpha=1)
    nb.fit(x_train, y_train)
    y_predict = nb.predict(x_test)
    print("预测结果为", y_predict)
    y_score = nb.score(x_test,y_test)
    print("准确率为：", y_score)


if __name__ == "__main__":
    beyas()