中文分词《Long Short-Term Memory Neural Networks for Chinese Word Segmentation》

Motivation:

以往大多数中文分词的方法都是基于系列标注任务,这需要建立复杂的特征表示才能从句子中抽取单词。为了避免建立复杂的特征表示,最近的研究都是集中于用神经网络自行学习分词信息。然而在使用一般的RNN进行中文分词时,之前学到的记忆可能会被冲淡,因此本文引入LSTM解决长时间依赖问题。

 

实现功能:

在用神经网络进行中文分词时,输入的是一个句子,输出是每个字符对应的标签{B,M,E,S}。B代表开始,M代表中间字符,E代表结束,S代表单个字符。例如:输入“要全面建成小康社会”,输出“SBEBEBMME”。

 

具体步骤:

假设窗口大小为5,对于边界字符用”start”或”end”填充,以“要全面建成小康社会”为例介绍模型主要构成。

  1. 字符嵌入层:设置一个嵌入矩阵(大小:d×c,d:嵌入维度,c:训练集中不同字符数,训练集中未出现过的字符映射到没使用过的特殊表示),查询“start | start | 要 | 全 | 面”这5个字符所对应的向量。然后拼接在一起,用x0表示,大小为5d。
  2. LSTM层:将x0输入到LSTM,输出网络的隐藏状态h0,大小为H(超参数)。

四种LSTM结构:

 3. 标签推理层(线性层):LSTM层的输出H作为输出,通过线性变换输出“要”字对应的标签(大小为4)。

实验结果:

对比四种LSTM网络发现:在训练了60个epochs之后,LSTM-1能够达到最优的效果。为了达到最优的效果,用不同的Dropout rate上下文窗口(Context Length)探究LSTM-1表现,结果发现Dropout rate=20%,上下文窗口(0,2)时效果最好。

 

启发:

  1. LSTM利用上文信息,要利用双向信息使用BiLSTM;
  2. 和随机初始化字符向量相比,使用预训练的字符向量和二元字符合并成一个向量能够实现更好的效果;
  3. 本文滑动窗口是(0,2)时效果最好,可能因为LSTM默认考虑的上文,而(0,2)弥补了考虑下文信息。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
长短期记忆(long short-term memory)是一种用于建立和训练循环神经网络(Recurrent Neural Networks)的模型,也是一种用于处理序列数据的有效方法。长短期记忆是循环神经网络的一种变种,通过引入门控机制解决了普通循环神经网络中遇到的梯度消失和梯度爆炸的问题。 长短期记忆的核心结构是记忆单元(memory cell),它具有输入门(input gate)、遗忘门(forget gate)和输出门(output gate)三个关键组件。输入门负责决定新的输入信息会被存储到记忆单元中的哪些位置上,遗忘门负责控制哪些过去的记忆应该被遗忘,输出门负责控制从记忆单元中输出的信息。 长短期记忆通过这些门控制记忆单元中的信息流动,可以保留对重要信息的长期记忆,同时也能够快速地遗忘不重要的信息。这种机制使得长短期记忆在处理长序列数据时更加有效,能够捕捉到序列中的长期依赖关系。 长短期记忆的训练使用的是反向传播算法,通过最小化损失函数来更新网络的权重参数。在训练过程中,长短期记忆可以自动学习到序列数据中的模式和规律,从而可以实现对序列数据的预测和生成。 长短期记忆在自然语言处理、语音识别、时间序列预测等领域有着广泛的应用。相比于其他循环神经网络的变种,长短期记忆能够更好地处理长序列数据中的记忆和依赖关系,取得了很好的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值