调用sklearn的NB模型来实现文章分类

在上一篇文章里面,我自己手写了一个朴素贝叶斯算法(NB),进行了训练和验证,并且通过在网上随便找一篇文章进行测试,能够正确得到文章类型结果。这篇文章中,我打算采用sklearn库,直接调用NB模型进行训练和预测。

1、首先加载sklearn的库;train_test_split--对数据进行分割,分成训练集和测试集。TfidfVectorizer--生成文章单词的TFIDF矩阵。MultinomialNB--sklearn的NB模型。

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer

 其次,准备数据集,读取分词后的文章数据集,加载列表words和label中,通过train_test_split按照4:1的比例进行切分。

接下来,对切分好的训练集进行向量化,使用TfidfVectorizer,求出文章单词的tfidf,构建单词向量。然后通过MultinomialNB模型对训练集的向量数据进行训练,并且保存TfidfVectorizer和MultinomialNB模型。

最后,读取测试集中的文章数据,通过TfidfVectorizer模型,进行测试集向量化,放入MultinomialNB模型中进行预测。

2、同样,拿出上篇文章中测试用例,通过建立好的模型进行预测,看下这篇新闻文章归属于哪类。

在pycharm远程运行下得到预测结果属于“娱乐”类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值