【论文笔记】Convolutional Neural Networks for Sentence Classification

最新推荐文章于 2020-12-14 18:21:48 发布

Preke

最新推荐文章于 2020-12-14 18:21:48 发布

阅读量1.2k

点赞数 2

分类专栏：阅读论文文章标签： cnn 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013398398/article/details/77278483

版权

阅读论文专栏收录该内容

2 篇文章 0 订阅

订阅专栏

paper链接 https://arxiv.org/abs/1408.5882
阅读这篇paper的一些笔记：

Abstract

本文将CNN和NLP结合；
介绍了一系列的对比实验，实验结果说明了：

一个简单的（单层神经网络）的CNN模型
一点超参数的调节（Filter的个数）
static word vector

文本分类的效果很好

non-static就是词向量随着模型训练变化，这样的好处是词向量可以根据数据集做适当调整

static就是直接使用word2vec训练好的词向量即可

卷积之后得到的列向量维度也是不同的，可以通过pooling来消除句子之间长度不同的差异

Introduction

主要是介绍了CNN近年来在NLP领域有一些发展

Model

这是本文的模型，基本也就是CNN的结构

左边是一个n*k的矩阵，表示一句话的n个词语，每个词语是一个k维向量
（这里word2vec）

然后设置一个滑窗的长度h，用这个滑窗滑过整个矩阵，然后通过下面这个公式的计算，算出h对应的一个特征的向量c

w是权重，b是偏移量
f就是一个非线性函数
（卷积核）

形成这个向量，称为feature map

我们可以通过改变h的大小，生成很多feature maps

然后对于每个feature map，采取选出这个向量中的最大值，（意在找到最重要的特征）

同时也解决了每个feature map不等长，统一了维度的问题

然后再将这个传递到全连接层
这是一个softmax层（因为涉及到句子的分类问题）

输出的就是对于不同的label的概率分布

数据集相对较小，很容易就会发生过拟合现象
所以这里引如dropout来减少过拟合现象。

就是产生一定的概率来mask掉一些点

Regularization

这里用到了dropout和l2正则项，避免过拟合
dropout就是将pooling之后的结果随机mask一部分值
比如，我们在这里pooling之后的结果是z，我们将z处理成y之后向前传递的时候，
然后我们就做一个 and 操作

每一次梯度下降，调整参数的时候，依靠这个阈值s来约束中间的参数

Result

这里是一些数据集
然后作者对比了自己的模型和其他下面很多模型的表现，发现效果很好；
在这里，rand是一个随机的词向量模型
static 就是用pre-trained word2vec词向量
non-static 就是会根据specific task来调整词向量（这里也不太清楚）
multichannel就是两种混合来用

Conclusion

CNN在NLP的一个尝试，并且效果还不错
说明了，pre-trained的word vector 是deep learning在NLP领域重要的组成部分
提特征不同，我纠结于很多中间过程，但是了解的不多，或者思维习惯，

Ref

http://blog.csdn.net/stdcoutzyx/article/details/49022443

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Convolutional Neural Networks for Sentence Classification

paper链接 https://arxiv.org/abs/1408.5882 阅读这篇paper的一些笔记：Abstract本文将CNN和NLP结合；介绍了一系列的对比实验，实验结果说明了：一个简单的（单层神经网络）的CNN模型一点超参数的调节（Filter的个数）static word vector文本分类的效果很好non-static就是词向量随着模型训练变化，这样的好处是词向量
复制链接

扫一扫

专栏目录

Preke CSDN认证博客专家 CSDN认证企业博客

码龄11年

104: 原创

17万+: 周排名

197万+: 总排名

22万+: 访问

: 等级

3255: 积分

34: 粉丝

174: 获赞

29: 评论

102: 收藏

私信

关注

热门文章

分类专栏

最新评论

Word2vec 入门（skip-gram部分)
lzr936332553: 有必要Negative sampling吗？ Negative sampling 负采样的话是为了近似训练，改变任务目标。因为skip-gram一词分类多个词，词表中的单词都要进行多分类。则softmax不能胜任。负采样之后，任务可以转化成，center词和其他词判断是否为上下文词，则转化成了二分类问题，降低了任务复杂度。解决这个问题还可以使用层序softmax。
python 读取 json文件
风栖柳白杨: 真就啥也不是
我理解的X.509
weixin_45063667: 您好，老师让做一个X.509认证系统仿真，我不太懂，能给个联系方式么
A*算法————传教士和野人
middlto 回复 Ersonnnn: 博主的意思应该是，负载人数不能算上划船的，所以实际上船能装3个人，每次有两个人能到对岸不回来。
【机器学习笔记】Hessian矩阵
只布布倩: 博主写的很清晰，谢谢分享。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。