【论文笔记】Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification

最新推荐文章于 2023-11-04 09:00:00 发布

我就是黑凤梨

最新推荐文章于 2023-11-04 09:00:00 发布

阅读量432

点赞数 2

分类专栏：机器学习文章标签：神经网络机器学习深度学习 python 人工智能

本文链接：https://blog.csdn.net/hzy199772/article/details/114548022

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

文章目录

前言
摘要（Abstract）
一、简介（Introduction）
二、相关工作（Related Work）
- 2.1 文档级情感分类
三、长短时记忆神经网络（Long Short-Term Memory Networks）
四、缓存长短时记忆神经网络（Cached Long Short-Term Memory Neural Network）
- 1.CIFG-LSTM
- 2.CLSTM
五、训练（Training）
六、实验（Experiment）
七、结果（Result）
文献说明

前言

Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification

高速缓存的LSTM用于文档级情感分类

此论文发表于EMNLP2016

主要把每个部分自己的笔记记录在这里。

摘要（Abstract）

主要内容：

1、神经网络拥有优化特征工程的能力，可以用于情感分类。
2、由于记忆单元的不足，在RNNs架构下，对Long-Text的分类仍是挑战，以此引出了本文的CLSTM。
3、引入缓存机制（cache mechanism）将memory分成几组，并给与不同的遗忘率。以此来解决文本级超远距离的长期依赖问题。
4、三个数据集分别为Yelp2013，Yelp2014，IMDB。

一、简介（Introduction）

1、RNNs流行是由于其能够处理变长的文本（variable-length texts），但RNN不足以处理溢出和从相对较远的时间步提取关键的情感信息。
2、句子或者段落级的情感分析期望从有限的信息中提取特征，文档级的情感分析期望能在噪声和局部冗余的情况下，选择并存储全局的情感信息。
3、引文[Tang et al.,2015a;Tai et al.,2015]中提出分层提取语义信息来解决此类文本的可伸缩性问题，例如首先生成句子表示，再组合生成文档嵌入。
4、Atkinson 和 Shiffrin在1968年提出了双存储的内存模型，这使得记忆可在短期的“缓冲”中存留一小段时间，并加强在长期记忆中的联系。
5、低遗忘率的组起缓存作用，将信息桥接传递到高遗忘率的组。

二、相关工作（Related Work）

2.1 文档级情感分类

1、现在文档级情感分类最大的挑战是：并不是文档的每一部分在推断整体情感上具有同等的信息量。
2、[Tai et al.2015]一文提出了树与LSTM融合以获得更好的语义组合；[Bhatia et al.2015]使用了额外信息进行增强。
3、从相关工作中可知，本文的灵感来自于：
①从外部存储的LSTM转化为内存优化
②原来是时间尺度区分，隐藏状态分组，现优化为为每个组赋予不同的遗忘率

三、长短时记忆神经网络（Long Short-Term Memory Networks）

此部分简单介绍了一下LSTM的内容。
在这里插入图片描述

四、缓存长短时记忆神经网络（Cached Long Short-Term Memory Neural Network）

1.CIFG-LSTM

本文说为了控制和平缓历史与传入的新信息，引用了[Greff et al.2015]提出的CIFG-LSTM，介绍说是耦合了输入门和遗忘门（这里的疑问是：和GRU相比区别和优劣在哪里呢？）
然后日出了更新公式：
在这里插入图片描述

2.CLSTM

更新公式如下：
在这里插入图片描述
其中符号含义：
$C_k:内部存储器\quad O_k:输出门\quad r_k:遗忘率\\r^{(t)}_k:t时间步，第K组的遗忘率\quad \Psi_k:压缩函数$

模型图如下：
在这里插入图片描述
双向的BCLSTM则是把两个向量进行了拼接以获取语义。

对于遗忘率的作用解释：不同组通过控制遗忘率来捕捉不同程度的依赖关系
F-rate-High：短期记忆
F-rate-low：长期记忆

五、训练（Training）

主要解释了用交叉熵（cross-entropy）来评价损失函数：
在这里插入图片描述

六、实验（Experiment）

1、首先给出了实验效果比较的图：
在这里插入图片描述
2、总结一下超参数和初始化：
预训练词向量维度（Glove）：50
隐藏单元：50
权重衰减集合{5e-4，1e-4，1e-5}
优化器：Adagrad
学习率：0.01
初始化的迭代矩阵是在[-0.1,0.1]的均匀分布中进行采样的
3、选择在验证集上获得最佳效果的超参数，在测试集上进行最终评估。

七、结果（Result）

1、单向RNN不能捕获存储语义，LSTM有所改善，CIFG-LSTM与LSTM性能相当。
2、双向模型更能进行全局把握，尤其是出现在长文本开头的信息。
3、缓存机制能在没有双向结构支持下有效存储有价值的信息。
4、B-CLSTM甚至超过了利用额外信息的模型。
5、在时间复杂度和参数个数CLSTM较优秀。
6、内存组的数量设置是很重要的，通过下图可以就看出，当神经元总数一定，分组越多，每组的神经元就越少，而数量不足是会影响分类能力的。
在这里插入图片描述

文献说明

本文是：Cached Long Short-Term Memory Neural Networks for Document-Level Sentiment Classification[Jiacheng Xu,Danlu Chen,Xipeng Qiu,Xuanjing Huang]的笔记。
笔记中的引文均是原文的引文：
[Tang et al.2015a]
Duyu Tang, Bing Qin, and Ting Liu.2015a. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification.EMNLP, pages 1422–1432.
[Tai et al.2015]
Kai Sheng Tai, Richard Socher, and Christopher D Manning. 2015. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL, pages 1556–1566.
[Bhatia et al.2015]
Parminder Bhatia, Y angfeng Ji, and Jacob Eisenstein. 2015. Better document-level sentiment analysis from rst discourse parsing.
In Proceedings of the Conference on Empirical Methods inNatural Language Processing,(EMNLP).
[Greff et al.2015] Klaus Greff, Rupesh Kumar Srivastava,Jan Koutn´ ık, Bas R Steunebrink, and Jürgen Schmid-huber. 2015. LSTM: A Search Space Odyssey.arXiv.org, March.