毕设记录-word2vec（skip-gram）实现文本分类

最新推荐文章于 2024-04-19 21:51:12 发布

认认真真学习

最新推荐文章于 2024-04-19 21:51:12 发布

阅读量1k

点赞数 3

分类专栏：经验分享文章标签： nlp 最近邻分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CDUTCo/article/details/106321756

版权

这篇博客记录了使用word2vec的skip-gram模型进行文本分类的过程，包括数据预处理（分词、清除停用词）、抽取类文本和测试数据、TFIDF关键字抽取。通过gensim库训练skip-gram模型，获取文本向量，并利用余弦相似度和K-NN进行分类。

摘要由CSDN通过智能技术生成

文本预处理

1、数据读取

数据是来自网易新闻文本。文本中有2万4千条新闻样本，一共有六个不同的新闻种类，有：体育、文化、经济、医疗、汽车、军事，直接用python3的pickle.load()该文件即可，是2万4千个文本样本的数据集合，该数据的每一行是一个元组，元组的第一个下标元素代表的是新闻文本数据，另一个代表的是该文本数据的分类。

2、数据处理

2-1分词

利用jieba对文章分词。

2-2清除停用词

对jieba导入停用词库（可自定义），去除分词文本中的噪音词，包括：字符、无价值词语等。

最低0.47元/天解锁文章

认认真真学习

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
5
评论
毕设记录-word2vec（skip-gram）实现文本分类

文本预处理1、数据读取数据是来自网易新闻文本。文本中有2万4千条新闻样本，一共有六个不同的新闻种类，有：体育、文化、经济、医疗、汽车、军事，直接用python3的pickle.load()该文件即可，是2万4千个文本样本的数据集合，该数据的每一行是一个元组，元组的第一个下标元素代表的是新闻文本数据，另一个代表的是该文本数据的分类。2、数据处理2-1分词利用jieba对文章分词。2-2清除停用词对jieba导入停用词库（可自定义），去除分词文本中的噪音词，包括：字符、无..
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。