1、Convolutional Neural Network for Text Classification in Tensorflow
https://github.com/cahya-wirawan/cnn-text-classification-tf
ps:该作者贡献了用cnn对文本进行分类的代码,并且写了博客介绍代码的含义。
代码里有利用word2vec进入输入,代码亲测可用,但是我还没仔细研究,重点学习。
该作者的博客:
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/
该作者还写过关于NLP CNN的一般教程:
http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/
2、卷积神经网络(CNN)在句子建模上的应用
http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html
ps:该博文介绍了很多利用cnn对文本建模的论文,很有用,第一篇就讲的是 1 的原论文。
3、githb GloVe: Global Vectors for Word Representation
https://github.com/stanfordnlp/GloVe
ps:里面有提供很多现成的word2vec的预处理包。
Common Crawl (42B tokens, 1.9M vocab, uncased, 300d vectors, 1.75 GB download): glove.42B.300d.zip
Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download): glove.840B.300d.zip
Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncased, 300d vectors, 822 MB download): glove.6B.zip
Twitter (2B tweets, 27B tokens, 1.2M vocab, uncased, 200d vectors, 1.42 GB download): glove.twitter.27B.zip
4、谢若冰github:
利用实体类型做知识表示
https://github.com/thunlp/TKRL
5、TransE模型简介,包括构建代码的讲解
http://sunzequn.com/index.php/archives/177/
6、TransE :利用tensorflow实现TransE
https://github.com/ZichaoHuang/TransE/blob/master/src/model.py
ps:亲测可用,原作者的参数和2013版的差别很大,但是效果很好。
7、谷歌word2vec的官网
https://code.google.com/p/word2vec/
Ps:也可以在里面下载预先训练的 由Google新闻数据集(约1000亿字)训练得到的词向量。该模型包含300万个单词和短语的300维向量。
8、A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification
https://arxiv.org/abs/1510.03820
ps:叶的论文对1论文(cnn做文本分类)模型变体(例如滤波器宽度,k-max池,word2vec等)进行分析,评估它们对性能的影响。