python 朴素贝叶斯算法使用

本文介绍了如何在Python中使用朴素贝叶斯算法进行文本分类。通过创建词汇表,将内容转换为向量,然后应用拉普拉斯平滑解决0概率问题,最终对未知类别数据进行预测。
摘要由CSDN通过智能技术生成

朴素贝叶斯算法使用

工具:Pycharm,win10,Python3.6.4

1.题目要求

根据如下数据使用朴素贝叶斯算法进行预测。

Document                            Content                       Category
d1                                ball goal cart goal                Sports
d2                                theater cart drama               Culture
d3                      drama strategy decision drama     Politics
d4                                        theater ball                   Culture
d5                              ball goal player strategy         Sports
d6                                 theater cart opera               Culture

d7                                    ball player strategy            ?
d8                                   theater cart decision           ?

2.Python代码

现在有三种类别Culture,Politics,Sports,我们把这三个类别分别建一个文件夹,并且把Content存入其中,这样子遍历文件的时候方便给数据打上标签。首先获取词汇表,代码和结果如下

import re
import numpy as np
import os


def textParse(String):
    list_String = re.split(r'\W*', String)
    return list_String


def readfiles():
    doc_list = []
    class_list = []
    file_lists = ['culture', 'politics', 'sports']
    for i in range(3):
        for txtfile in os.listdir(file_lists[i] + '/'):
            with open(file_lists[i] + '/' + txtfile, 'r', ) as f:
                word_list = textParse(f.r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值