使用imdb情感分析的语料库进行二值的文本分类测试:
文本的特征是这样抽取的, 首先对文本集合训练word2vec 获得每个词的嵌入表示, 取每篇文章前64个词的嵌入表示构成特征向量, 这种方法提取的特征,对比了tf-idf 提取的文本特征 (采用LR方法) 效果好太多。
使用自己实现的LR分类器, 采用SGD来训练模型, 在测试集合 上准确率为70% , 计划再用L-BFGS训练模型试试。
使用 自己实现的cart 和random forest 测试集合上的准确率为60%,实现简单训练速度快。
使用 LIBFM准确能够达到70%, 训练较慢, 效果一般 令人失望。
使用GBDT测试准确率能够达到76%,效果不错 但是训练速度较慢,与caffe框架相比无优势。
使用caffe deeplearning framework , 数据表示为 dim *1*word_size, dim 表示嵌入表示的每个词的向量维度, 需要GPU。
1 ) 两层全连接, 中间包含relu and drop out 层,测试 准确率能够达到80%
2) 两层CNN加两层全连接, 测试准确率仅为71% , CNN的方法不知是否还有改进空间有待验证。