Sentence-State LSTM for Text Representation(论文笔记)

Sentence-State LSTM for Text Representation

(pages 317–327,July, 2018. Association for Computational Linguistics)

1. Baseline BiLSTM

 Baseline BiLSTM由两个LSTM组成, 一个从左到右,一个从右到左。

对于从左到右的:输入一串词, 初始状态{\underset{h^{0}}{\rightarrow} }, 经过下面的步骤 反复操作,每次消耗一个词,得到\underset{h^1}{\rightarrow},...\underset{h^{n+1}}{\rightarrow}.

 

x_t : 词w_t ;

  i^t, o^t, f^t, u^t: 输入门,输出门,遗忘门,真实的输入;

 W_x, U_x, b_x(x\in \{i, o, f, u\}): 模型参数;

\sigma: sigmoid 函数

对于从右到左的: 和从左到右的类似,只不过初始是h^{n+1},输入是 x_n, x_{n-1}, ..., x _0,输出是\underset{h^n}{\leftarrow},\underset{h^{n-1}}{\leftarrow},...,\underset{h^0}{\leftarrow}

最后BiLSTM用 h^t = \left [ \underset{h^t}{\rightarrow};\underset{h^t}{\leftarrow}\right ]来表示词w_t的隐藏向量,同时用来表示这个句子的最终状态。

2. Sentence-State LSTM

 

Sentence-State LSTM 简称S-LSTM:

在一个时步 t 里,可以表示成

h_i^t : 词w_i的子状态, g^t:句子的子状态。

初始状态H^0,  设置h_i^0 = g^0 = h^0,其中h^0是一个参数。

如上图每次计算,经如下步骤,由x_i, h^{t-1}_{i-1},h^{t-1}_{i},h^{t-1}_{i+1} and g^{t-1}得到h_i^t

\xi ^t_i: 一个文本窗的隐藏矩阵

l_i^t,r_i^t,f_i^t,s_i^tandi_i^t: 门

W_x, U_x, V_x, and \ b_x(x\in \{i, o, l, r, f, s, u\}): 模型参数;

\sigma: sigmoid 函数

g^t经下面步骤由h_i^{t-1}, i\in[0..n+1]计算得到:

f_0^t,...,f^t_{n+1}and \ f_g^t:控制门

o^t: 输出门

W_x, U_x, b_x(x\in \{g,f,o\}): 模型参数;

和BiLSTM的对比

BiLSTM 中用了一个状态表示从开始到当前词

S-LSTM中用了一个结构性的状态表示整个句子,因为g 所以h_j包含更多的信息

文本窗的大小

文本窗的大小可以控制和相邻词的信息交换度。当文本窗的大小为2时\xi _i^t=[h_{i-2}^{t-1},h_{i-1}^{t-1},h_i^{t-1},h_{i+1}^{t-1},h_{i+2}^{t-1}]

更多的句子级节点

可以考虑加不止一个g

3. Task settings

1 分类:  y 是 标注类别的概率分布

2 句子标注:每一个h_i可以表示相应词的特征

可加 attention:

可加 CRF:

Experiments

加了<s> </s>的句子更好一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值