NLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python

最新推荐文章于 2023-05-13 19:49:37 发布

置顶

VIP文章小白胖爱学习-

最新推荐文章于 2023-05-13 19:49:37 发布

阅读量9.6k

点赞数 2

文章标签：机器学习 python nlp 自然语言处理深度学习

本文链接：https://blog.csdn.net/m0_37723079/article/details/104613268

版权

数据处理

首先介绍一下数据集：我们采用THUCNews数据集的子集，这是个链接（提取码：acvu）啦啦啦。完整数据自行去下哦 (地址：http://thuctc.thunlp.org/）~我们来看看这个数据，这个数据格式呢是一个样本是一条新闻，包括类别和内容。首先我们加载数据：

import pandas as pd
import jieba

#%%数据加载
f_train=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.train.txt',"rt", encoding='utf-8')
f_test=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.test.txt',"rt", encoding='utf-8')
train=pd.read_table(f_train,names=['类别','内容'])
test=pd.read_table(f_test,names=['类别','内容'

最低0.47元/天解锁文章

优惠劵

小白胖爱学习-

关注关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
5
评论
NLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python

首先介绍一下数据集：我们这次只是进行一个小测试，就用的THUCNews数据集的子集，这是个链接（提取码：acvu）啦啦啦。完整数据自行去下哦 (地址：http://thuctc.thunlp.org/）~我们来看看这个数据，这个数据格式呢是一个样本是一条新闻，包括类别和内容。首先我们加载数据：import pandas as pdimport jieba#%%数据加载f_train=op...
复制链接

扫一扫