论文Convolutional Naural Networks for Sentence Classification--模型介绍篇

最新推荐文章于 2022-10-13 22:41:55 发布

yyyybupt

最新推荐文章于 2022-10-13 22:41:55 发布

阅读量177

点赞数 1

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_41747565/article/details/92660054

版权

nlp 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Yoon Kim发表的论文Convolutional Naural Networks for Sentence Classification，前面两篇博客介绍了论文阅读的笔记，CNN在NLP中的运用以及论文具体的Tensorflow实现方法，今天对CNN模型进行分解剖析：

1.输入-词向量：将句子的每一个单词转化为一个k维的词向量拼接在一起作为输入，取最大句子长度n。句子长度不够则进行补零操作，也叫padding，因而每一个句子的输入为n*k的矩阵。我们采用static channel和non-static channel两个通道同时输入，一个可以进行微调一个保持不变，因而输入是两个n*k的矩阵。

理想情况下，多通道可以防止过拟合，尤其是对于数据集较小的情况。但是结果并不一定，我们应该多关注此向量的微调。相比于添加一个通道，可调的单通道多维输入效果反而更好
static中词向量采用word2vec训练好的，在训练过程中保持不变，只调整模型的其他参数。由于good和bad的语气差不多，在word2vec中两者的表示类似。
non-static中词向量会进行调整，通过微调可以学到更多有意义的表示。

2.卷积操作：利用卷积核与输入进行卷积得到特征映射的结果。每个卷积核的大小为filter_size*embedding_size，filter_size论文中取[3,4,5]，embedding_size即为词向量的长度k，embedding_size的巧妙设置，使得我们不需要关注词向量内部，关注点可以放在词与词之间。论文中3中形状的卷积核均设置了100个，我们对2个通道用3种卷积核，每种100个均进行卷积，可以得到2*3*100个特征映射的输出。由于一个卷积核对每个通道的输入进行一一遍历卷积，因此需要的参数大大减少。

3.池化操作：通过去最大值获得句子中最重要的特征，由于每个filter对应一个输出，池化后可以得到一个num_filters维的向量。由于对每一个卷积结果只考虑最大值，即使在输入没有做padding，池化后也可以消除句子长度不一致的问题。

4.全连接层

由于目的是判断对给定的句子是正面还是负面评论，所以需要对池化的结果进行二分类。由于实验数据集较小，容易出现过拟合实验迭代到3000轮时准确率接近1，所以全连接层使用dropout减少过拟合，也可用L2正则化防止过拟合。

yyyybupt

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文Convolutional Naural Networks for Sentence Classification--模型介绍篇

Yoon Kim发表的论文Convolutional Naural Networks for Sentence Classification，前面两篇博客介绍了论文阅读的笔记，CNN在NLP中的运用以及论文具体的Tensorflow实现方法，今天对CNN模型进行分解剖析：1.输入-词向量：将句子的每一个单词转化为一个k维的词向量拼接在一起作为输入，取最大句子长度n。句子长度不够则进行补零操...
复制链接

扫一扫

专栏目录