中文word2vec的python实现_嵌入Word2vec词向量的CNN中文文本分类

最新推荐文章于 2024-07-01 16:51:24 发布

weixin_39679468

最新推荐文章于 2024-07-01 16:51:24 发布

阅读量1.4k

点赞数

文章标签：中文word2vec的python实现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39679468/article/details/111864780

版权

本文介绍了一种使用预训练的Word2vec词向量和卷积神经网络（CNN）进行中文文本分类的方法。通过改进数据预处理和调整模型结构，验证集上的准确率达到了97.1%，并在测试集上达到了97.2%的准确率。实验基于THUCNews数据集，包括10个类别，如体育、财经等。

摘要由CSDN通过智能技术生成

Text classification with CNN and Word2vec

本文是参考gaussic大牛的“text-classification-cnn-rnn”后，基于同样的数据集，嵌入词级别所做的CNN文本分类实验结果，gaussic大牛是基于字符级的；

进行了第二版的更新：1.加入不同的卷积核；2.加入正则化；3.词仅为中文或英文，删掉文本中数字、符号等类型的词；4.删除长度为1的词；

训练结果较第一版有所提升，验证集准确率从96.5%达到97.1%，测试准确率从96.7%达到97.2%。

本实验的主要目是为了探究基于Word2vec训练的词向量嵌入CNN后，对模型的影响，实验结果得到的模型在验证集达到97.1%的效果，gaussic大牛为94.12%；

更多详细可以阅读gaussic大牛的博客：text-classification-cnn-rnn

1 环境

python3

tensorflow 1.3以上CPU环境下

gensim

jieba

scipy

numpy

scikit-learn

2 CNN卷积神经网络

模型CNN配置的参数在text_model.py中，具体为：

模型CNN大致结构为：

3 数据集

本实验同样是使用THUCNews的一个子集进行训练与测试，数据集请自行到TH

最低0.47元/天解锁文章

weixin_39679468

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
中文word2vec的python实现_嵌入Word2vec词向量的CNN中文文本分类

Text classification with CNN and Word2vec本文是参考gaussic大牛的“text-classification-cnn-rnn”后，基于同样的数据集，嵌入词级别所做的CNN文本分类实验结果，gaussic大牛是基于字符级的；进行了第二版的更新：1.加入不同的卷积核；2.加入正则化；3.词仅为中文或英文，删掉文本中数字、符号等类型的词；4.删除长度为1的词；...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。