序列标注 | (7) 融入字典知识的神经中文分词

融入字典知识的神经中文分词

一、背景

当前基于深度神经网络的中文分词方法直接从标注样本/句子中学习相关信息,缺乏处理稀有词以及和训练集来自不同领域的数据的能力。OOV(Out-of-vocabulary)问题是监督学习最主要的问题。

例如,中文句子“人工智能最近很火”,它的正确分割是“人工智能/最近/很火”。然而,如果“人工智能”没有出现在标注数据中或仅仅出现了几次,那么将有很大的概率该句子会被分割为“人工/智能/最近/很火”,因为“人工”和“智能”在标注数据中出现的频率很高。

对于稀有样例处理和领域偏移问题,人类知识可以提供有价值的信息。字典中既含有常见的词语,也含有不经常出现的词语, 所以将字典融入到神经网络模型中,可以使得模型能够更好地处理常见词、稀有词和领域专有词等。
在这里插入图片描述

二、 主要方法

1)《Neural Networks Incorporating Dictionaries for Chinese Word Segmentation》 AAAI 2018

本文提出了两个模型结构:
Model I:
在这里插入图片描述
首先,将输入句子中的每个字符 x i x_i xi转换为向量表示 e x i e_{x_i} exi,输入到一个Bi-LSTM中提取特征;同时为每个字构造对应的特征向量 t i t_i ti,输入到另一个Bi-LSTM中提取特征。然后将两部分特征拼接在一起,再接一个CRF层进行解码。

特征向量构造方法:
t i t_i ti是输入句子中第 i 个字符 x i x_i xi对应的特征向量。对 x i x_i xi构造以下8个特征模版:
在这里插入图片描述
对于输入句子中的每个字符,按照上述模版提取对应的子序列,如果提取的子序列出现在了给定的词典中,该子序列对应的位置标为1,否则标为0,最后为每个字符生成一个8维的特征向量。如下例所示(对于“委”这个字符):
在这里插入图片描述
Model II:
特征向量 t i t_i t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>