jieba结巴分词--关键词抽取_Python文章分类与自动分类标签--NLP

最新推荐文章于 2024-02-08 12:17:06 发布

weixin_39724362

最新推荐文章于 2024-02-08 12:17:06 发布

阅读量387

点赞数

文章标签： jieba结巴分词--关键词抽取

对文章进行分类、打标签、建模的主要步骤如下：

1）将已划分好类型的文本集（训练集）和待划分类型的文本集（测试集）进行分词处理，将长句划分为单个词组；

2）将步骤1中切好的词组放入词包中，并扩展成链式结构，形成bag of word；

3）应用TF-IDF算法计算训练集文档中每篇文章的TF-IDF权重矩阵；

4）使用朴素贝叶斯分类方法对训练集数据进行训练，然后利用得到的参数对测试集数据进行分类处理；

原始数据源：

-------------------------------------文本分词处理------------------------------------

分词

#!/usr/bin/env python

执行程序后，训练集和测试集对应文件夹下未经处理的原始txt文档被切词处理，并将切词后的txt文件存入新建立的文件夹下。

---------------------------------------数据结构处理----------------------------------

为了方便后续生成词向量空间模型，需要将这些分词后的文本信息转换成文本向量信息并对象化，Sklearn中的Bunch库继承自dict类型，可以参数形式创建相关对象，并以key/value的形式存储数据。

#!/usr/bin/env python

执行完程序后生成train_bunch_bag.dat和test_bunch_bag.dat数据文件。

---------------------------------------TF-IDF权重矩阵---------------------------------

其中TF=(某词在文档中出现的总次数/文档的词总数), IDF= loge(语料库中文档总数/包含该词的文档数)+1。

from

space表示词向量空间坐标，tdm表示训练集和测试集数据的TF-IDF权重矩阵。

执行完程序后生成train_tfidfspace.dat和test_tfidfspace.dat数据文件。

-----------------------------------朴素贝叶斯分类--------------------------------------

import

从建模流程来看，对文章分类、打标签包括4个主要步骤：

1）文章数据分词处理，抽取文章的主题标签；

2）构建文章的词袋模型；

3）使用TF-IDF计算文章的词空间向量；

4）使用朴素贝叶斯算法对测试集文章进行分类。

weixin_39724362

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。