详解BiLSTM

一、介绍

1.1 文章组织

本文简要介绍了BiLSTM的基本原理,并以句子级情感分类任务为例介绍为什么需要使用LSTM或BiLSTM进行建模。

1.2 情感分类任务

自然语言处理中的情感分类任务是对给定文本进行情感倾向分类的任务,粗略来看可以认为其是分类任务中的一种。对于情感分类任务,目前通常的做法是先对词或者短语进行表示,再通过某种组合方式把句子中词的表示组合句子的表示。最后,利用句子的表示对句子进行情感分类。
举一个对句子进行褒贬二分类的例子:

句子:我爱你
情感标签:褒义

1.3 什么是LSTM和BiLSTM

LSTM的全称是Long Short-Term Memory,它是RNN的一种。LSTM由于其设计的特点,非常合适用于对时序数据的建模,如文本数据。BiLSTM(directional Long Short-Term Memory)是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常杯用来建模上下文信息。

1.4 为什么使用LSTM和BiLSTM

将词的表示组合成句子的表示,可以采用相加的方法,即将所有词的表示进行加和,或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序。如句子“我不觉得他好”。“不”字是对后面“好”的否定,即该句子的情感极性是贬义。使用LSTM模型可以更好的捕捉到较长距离的依赖关系。因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。

但是利用LSTM对句子进行建模还存在一个问题:无法编码从后到前的信息。在更细粒度的分类时,如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互。举一个例子,“这个餐厅脏得不行,没有隔壁好”,这里的“不行”是对“脏”的程度的一种修饰,通过BiLSTM可以更好的捕捉双向的语义依赖。

二、BiLSTM原理简介

2.1 LSTM介绍

2.1.1总体框架

在这里插入图片描述
总体框架如图所示:
在这里插入图片描述

2.1.2 详细介绍计算过程

计算遗忘门,选择遗忘的信息。

输入:前一刻的隐层状态 h t − 1 h_{t-1} ht1,当前时刻输入词 X t X_t Xt
输出:遗忘门的值 f t f_t ft

在这里插入图片描述
计算记忆们,选择要记忆的信息。

输入:前一刻的隐层状态 h t h_t ht,当前时刻的输入词 X t X_t Xt
输出:记忆门的值 i t i_t it,临时细胞状态 C ^ t \widehat{C}_t C t

在这里插入图片描述
计算当前时刻细胞状态。

输入:记忆们的值 i t i_t it,遗忘门的值 f t f_t ft,临时细胞状态 C ^ t − 1 \widehat{C}_{t-1} C t1
输出:当前时刻细胞状态 C t C_t Ct

在这里插入图片描述
计算输出门和当前时刻隐层状态

输入:前一时刻的隐层状态 h t − 1 h_{t-1} ht1,当前时刻的输入词 X t X_t Xt,当前时刻细胞状态 C t C_t Ct
输出:输出门的值 O t O_t Ot,隐层状态 h t h_t ht

在这里插入图片描述
最终,我们可以得到与句子长度相同的隐层状态序列{ h 0 , h 1 , h 2 , . . . , h n − 1 h_0,h_1,h_2,...,h_{n-1} h0,h1,h2,...,hn1}

2.2 BiLSTM介绍

前向的LSTM与后向的LSTM结合成BiLSTM。比如,我们对“我爱中国”这句话进行编码,模型如图所示。
在这里插入图片描述在这里插入图片描述
对于情感分类任务来说,采用的句子的表示往往是[ { h L 2 , h R 2 h_{L2},h_{R2} hL2,hR2} ]。
因为其包含了前向与后向的所有信息,如图所示。
在这里插入图片描述

三、总结

本文中,我们结合情感分类任务介绍了LSTM以及BiLSTM的基本原理,除了情感分类任务,LSTM与BiLSTM在自然语言处理领域的其它任务上也得到了广泛应用,如机器翻译任务中使用其进行源语言的编码和目标语言的解码,机器阅读理解任务中使用其对文章和问题的编码等。

代码实例请见:https://zhuanlan.zhihu.com/p/47802053

  • 10
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BiLSTM-CRF模型是一种用于序列标注任务的深度学习模型,它结合了双向长短时记忆网络(BiLSTM)和条件随机场(CRF)两个模型的优点,能够有效地解决序列标注问题。 BiLSTM模型是一种循环神经网络,它能够对序列中的每个元素进行处理,并利用上下文信息来预测当前元素的标签。而CRF模型则是一种统计学习方法,它将标注问题看作是一个序列标注的联合概率分布问题,通过最大化联合概率分布来得到最优的标注序列。 BiLSTM-CRF模型将BiLSTM和CRF结合起来,首先使用BiLSTM网络对序列中的每个元素进行特征提取,然后将这些特征作为CRF模型的输入,通过CRF模型来计算标注序列的联合概率分布,并得到最优的标注序列。 具体来说,BiLSTM-CRF模型的输入是一个序列,每个元素都包含了一组特征向量。这些特征向量可以包括单词、词性、上下文信息等。BiLSTM网络通过对序列中每个元素的特征向量进行处理,得到一个隐层向量表示。由于BiLSTM是双向的,因此对于每个元素,它的隐层向量表示将包括它本身以及它前后的上下文信息。 接下来,CRF模型将这些隐层向量作为输入,计算标注序列的联合概率分布。具体来说,CRF模型会考虑当前元素的标签以及前一个元素的标签,通过定义一个转移矩阵来计算它们之间的转移概率。同时,CRF模型还会考虑每个元素的标签的概率分布,通过定义一个发射矩阵来计算每个元素的标签的概率分布。最终,CRF模型会选择一个最优的标注序列,使得它的联合概率分布最大化。 BiLSTM-CRF模型在序列标注任务中取得了很好的效果,特别是在自然语言处理领域中的实体识别、命名实体识别、词性标注等任务中,都得到了较好的表现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值