中文word2vec的python实现_嵌入Word2vec词向量的CNN中文文本分类

本文介绍了一种使用预训练的Word2vec词向量和卷积神经网络(CNN)进行中文文本分类的方法。通过改进数据预处理和调整模型结构,验证集上的准确率达到了97.1%,并在测试集上达到了97.2%的准确率。实验基于THUCNews数据集,包括10个类别,如体育、财经等。
摘要由CSDN通过智能技术生成

Text classification with CNN and Word2vec

本文是参考gaussic大牛的“text-classification-cnn-rnn”后,基于同样的数据集,嵌入词级别所做的CNN文本分类实验结果,gaussic大牛是基于字符级的;

进行了第二版的更新:1.加入不同的卷积核;2.加入正则化;3.词仅为中文或英文,删掉文本中数字、符号等类型的词;4.删除长度为1的词;

训练结果较第一版有所提升,验证集准确率从96.5%达到97.1%,测试准确率从96.7%达到97.2%。

本实验的主要目是为了探究基于Word2vec训练的词向量嵌入CNN后,对模型的影响,实验结果得到的模型在验证集达到97.1%的效果,gaussic大牛为94.12%;

更多详细可以阅读gaussic大牛的博客:text-classification-cnn-rnn

1 环境

python3

tensorflow 1.3以上CPU环境下

gensim

jieba

scipy

numpy

scikit-learn

2 CNN卷积神经网络

模型CNN配置的参数在text_model.py中,具体为:

模型CNN大致结构为:

3 数据集

本实验同样是使用THUCNews的一个子集进行训练与测试,数据集请自行到TH

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值