9月6日论文复写_sentence-state 论文-CSDN博客

本文链接：https://blog.csdn.net/single_ton/article/details/120147430

9月6日论文复写

Sentence-State LSTM for Text Representation

meeting of the association for computational linguistics （ACL18）上的一篇文章。
客观事实：
双向链表在文本表示中是一个非常强大的工具。
神经网络方法也成为了NLP中的主流方法

问题：

由于其顺序性（sequential nature），受到了很多限制
引言中提出了其限制：
1、固有的顺序性(?这里需要去了解双向LSTM)赋予了相同句子中的非平行计算，可能会导致计算瓶颈
2、local n-gram，是非常有用的上下文信息来源，但是没有被明确建模
3、捕捉长距离的依赖关系能力相对较弱，在编码较长的句子时性能较低
4、双向LSTM，循环步骤要随着句子的大小而增加

提出解决方法：

用于编码文本的替代性 LSTM 结构，句子状态的LSTM(S-LSTM)。可以在3-6次循环后给出有效的句子编码。替代的神经网络结构

方法描述：

1、由每个词的平行状态组成
2、递归步骤被用来同时进行单词之间的局部和全局信息交换，而不是对单词序列的增量阅读
3、这种句子级的状态向量可以与每个词交换非本地信息
4、这种状态向量还可以作为全局的句子级表示用在分类任务中

主要思想：

在每个循环步骤对所有单词的隐藏状态进行建模，而不是一次一个单词。并将整个句子看做一个单一的状态(single state)，由每个词和一个整体的句子级状态组成。状态通过相互之间的信息交换而更新

结果：

与多种LSTM模型进行对比，时间短、并且Acc较高。16个数据集中12个数据集成绩比其他两个算法好，在减少了时间的基础上获得了更高的Acc。

数据集：

16个数据集。

小结：

1、提出的对比方法是97年提出的双向LSTM，这种方法在15年之后得到了广泛的应用。方法是比较老的，但是大规模应用的时间是最近五年
2、通过文章看到了那篇非常厉害的Attention is all you need，也需要去看一下Attention机制相关的总结。
3、源码开放，https://github.com/leuchine/S-LSTM
4、可以通过这篇文章延伸到很多与LSTM相关的文本表示算法，文章偏向于算法类。
5、作者是否优化到了一个最优的地步，是否留下了其他方向的优化可能性。