动态卷积网络和n-gram思想用于句分类
链接: 数据集 提取码: 6cgu
基于深度学习的序列模型
《A Convolutional Neural Network For Modelling Sentences》
一种用于句子建模的卷积神经网络
作者:Nal Kalchbrenner等
单位:University of Oxford
发表会议及时间:ACL 2014
描述了一种优秀的句子分类模型
四 问题思索
一 论文导读
1.句子建模简介
2.相关技术
1.句子建模简介
句子建模的目标:表征句子语义内容
问题是:单个句子很少重复出现,所以要从单词入手
2.相关技术
一 词表征
在传统的NLP中,我们把单词作为离散的变量,即局部表征
例子:单词可以作为独热向量
向量的维度等于单词的在字典中的数量
但是这种独热表征是正交,无关的
二 基于分布式相似性的表征
词嵌入:一个单词的意思通过其周围频繁出现的单词所决定
如何使用相邻的单词去表达所要表达单词的含义呢?
使用共现矩阵,共现矩阵满足一下三种特征
- 包含单词意和词性信息
- 窗口大小为1
- 对称
基于窗口的共现矩阵:
简单共现向量的问题
- 单词量增加后,矩阵的尺寸增加较大
- 需要大量的存储空间
- 矩阵很稀疏
- 模型不强壮
解决方案:使用低维向量
低维度的密集向量
大小通常为25-1000维
方法一:在共现矩阵X上降维
基于奇异值分解
效果:
句法模式:相同意思的邻近
语义模式:左下方偏于动词 右上方偏于名词
该方法存在问题如下:主要是算法复杂度高,计算困难,对新单词不敏感,模型不够强壮
解决方案:直接用一个单词去预测它周围的单词,直接学习和使用低维向量
方法2:直接学习低维向量(word2vec)
直接用单词去预测周围的向量
算法:
优点:很好的去编码词与词之间的相似性
到了word2wec词的表征已经有了较好的表现
接下来就是对句子的建模
从词向量到句子建模
二 论文精读
1.论文整体框架
2.经典算法模型
3.模型
4.实验和结果
5.讨论和总结
1.论文整体框架
- Abstract
- Introduction
- Background
- Model:Convolutional Neural Networks with Dynamic k-Max Pooling
- Analysis:Properties of the Sentence Model
- Experiments
- Conclusion
2.经典算法模型
-
词袋模型
-
连续词袋模型
-
深度的连续词袋模型
有一定的特征融合,可以考虑到不同词之间的组合,比如not 和 hate
-
n-grams词袋模型
缺点:参数量会爆炸增长
-
1维卷积/时间延迟网络
-
循环神经网络
-
递归神经张量网络
3.模型
4.实验和结果
5.讨论和总结