数据集是网上找的,已上传至我的 Github,项目完整地址:https://github.com/cyandn/practice/tree/master/text-classification
流程:
- 加载数据集,去停用词
- 使用 Keras 的 Tokenizer 将每一文本用数字表示
- 创建 TextCNN 模型,训练并预测
在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s,跑 6、7 个 epoch 测试集准确率就到 1.0000 了 。。数据集太小太简单
也可以使用词袋模型进行实验,这里不在赘述
参考:
https://www.jianshu.com/p/3c8591a12bd6
https://blog.csdn.net/edogawachia/article/details/79446354
https://blog.csdn.net/John_xyz/article/details/79210088
http://www.52nlp.cn/tag/textcnn