CNN用于句子分类时的超参数分析

最新推荐文章于 2024-03-24 00:21:45 发布

liuchongee

最新推荐文章于 2024-03-24 00:21:45 发布

阅读量4.1k

点赞数 1

分类专栏： nlp 卷积神经网络-CNN 深度学习深度学习与NLP--论文笔记和TensorFlow实现文章标签： cnn 句子分类

本文链接：https://blog.csdn.net/liuchonge/article/details/67040089

版权

深度学习与NLP--论文笔记和TensorFlow实现同时被 3 个专栏收录

58 篇文章 215 订阅

订阅专栏

深度学习

53 篇文章 6 订阅

订阅专栏

nlp

42 篇文章 5 订阅

订阅专栏

本文是“A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification”这篇paper的阅读笔记。这篇paper的主要工作是对“Convolutional Naural Networks for Sentence Classification”这篇论文的模型进行了各种各样的对比试验，进而得到了一些关于超参数的设置经验。其实论文前面几章对实验内容和结果进行了详细介绍，但是我们可以直接在第五章中获得我们想要得到的超参数设置经验。接下来就记录一下：

对于预训练的词向量（glove， word2vec）而言，二者对不同分类任务各有优劣，但效果都比one-hot编码要强（虽然one-hot编码方式在文本分类任务中取得了比较好的效果）。
卷积核的窗口大小对实验结果有着比较重要的影响。首先，ws在1-10之间取值较好，且如果训练集中的句子长度较大（100+）时，我们可以考虑使用较大的ws以获取上下文关系。其次，对不同尺寸ws的窗口进行结合会对结果产生影响。当把与最优ws相近的ws结合时会提升效果，但是如果将距离最优ws较远的ws相结合时会损害分类性能。一般取为3-5~~
卷积核数量num_filters也对实验结果比较重要。最好不要超过600，超过600可能会导致过拟合。一般设为100-200~~
pooling方式就使用1-max就可以。mean或者k-max pooling效果都不太好
l2正则化效益很小，相比而言，dropout在神经网络中有着广泛的使用和很好的效果，dropout一般设为0.5
激活函数的话，目前广泛应用的是ReLU、tanh函数。

liuchongee

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CNN用于句子分类时的超参数分析

本文是“A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification”这篇paper的阅读笔记。这篇paper的主要工作是对“Convolutional Naural Networks for Sentence Classificati
复制链接

扫一扫