机器学习实战（代码部分）-- 朴素贝叶斯之文本分类（Ⅱ 从词向量计算概率）

最新推荐文章于 2022-07-27 17:00:09 发布

m0_38056893

最新推荐文章于 2022-07-27 17:00:09 发布

阅读量631

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/m0_38056893/article/details/102851855

版权

机器学习专栏收录该内容

92 篇文章 17 订阅

订阅专栏

4-2 朴素贝叶斯分类器训练函数

输入参数：
    文档矩阵trainMatrix
    每篇文档构成的向量trainCategory

返回值：
    两个向量和一个概率

算法思路：
    （1）计算出训练文档的数目numTrainDocs（文档矩阵的行数），每篇文档的词条数numWords（文档矩阵一行的数据个数）。
    （2）计算侮辱性数据的比例。思想：侮辱性中类别数据为1，非侮辱性为0。通过数据中所有值的和除以数据的数目即可得到侮辱性数据的比例（用浮点型计算）。
    （3）初始化概率：构造两个和词条数长度相同的零矩阵，分别计算文档属于侮辱性/非侮辱性文档的概率。思想：若数据属于侮辱性文档，则将这组文档矩阵加到属于侮辱性文档的初始化矩阵中，然后计算每个数据属于侮辱性文档的概率值。

代码：

# 训练模型：计算各特征在不同的类别下的条件概率
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 计算训练的文档数目
    numWords = len(trainMatrix[0])  # 计算每篇文档的词条数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 文档属于侮辱类的概率
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)  # 创建numpy.zeros数组,词条出现数初始化为0
    p0Denom = 0.0
    p1Denom = 0.0  # 分母初始化为0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num / p1Denom  # 如[1, 3, 4, 2, 0] / 2 = [0.5, 1.5, 2.0, 1.0, 0.0]
    p0Vect = p0Num / p0Denom
    return p0Vect, p1Vect, pAbusive  # 返回属于侮辱类的条件概率数组，属于非侮辱类的条件概率数组，文档属于侮辱类的概率

m0_38056893

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战（代码部分）-- 朴素贝叶斯之文本分类（Ⅱ 从词向量计算概率）

4-2 朴素贝叶斯分类器训练函数输入参数：文档矩阵trainMatrix 每篇文档构成的向量trainCategory返回值：两个向量和一个概率算法思路：（1）计算出训练文档的数目numTrainDocs（文档矩阵的行数），每篇文档的词条数numWords（文档矩阵一行的数据个数）。（2）计算侮辱性数据的比例。思想：侮辱性中类别数据为1...
复制链接

扫一扫