文章目录
融入字典知识的神经中文分词
一、背景
当前基于深度神经网络的中文分词方法直接从标注样本/句子中学习相关信息,缺乏处理稀有词以及和训练集来自不同领域的数据的能力。OOV(Out-of-vocabulary)问题是监督学习最主要的问题。
例如,中文句子“人工智能最近很火”,它的正确分割是“人工智能/最近/很火”。然而,如果“人工智能”没有出现在标注数据中或仅仅出现了几次,那么将有很大的概率该句子会被分割为“人工/智能/最近/很火”,因为“人工”和“智能”在标注数据中出现的频率很高。
对于稀有样例处理和领域偏移问题,人类知识可以提供有价值的信息。字典中既含有常见的词语,也含有不经常出现的词语, 所以将字典融入到神经网络模型中,可以使得模型能够更好地处理常见词、稀有词和领域专有词等。

二、 主要方法
1)《Neural Networks Incorporating Dictionaries for Chinese Word Segmentation》 AAAI 2018
本文提出了两个模型结构:
Model I:

首先,将输入句子中的每个字符 x i x_i xi转换为向量表示 e x i e_{x_i} exi,输入到一个Bi-LSTM中提取特征;同时为每个字构造对应的特征向量 t i t_i ti,输入到另一个Bi-LSTM中提取特征。然后将两部分特征拼接在一起,再接一个CRF层进行解码。
特征向量构造方法:
t i t_i ti是输入句子中第 i 个字符 x i x_i xi对应的特征向量。对 x i x_i xi构造以下8个特征模版:

对于输入句子中的每个字符,按照上述模版提取对应的子序列,如果提取的子序列出现在了给定的词典中,该子序列对应的位置标为1,否则标为0,最后为每个字符生成一个8维的特征向量。如下例所示(对于“委”这个字符):

Model II:
特征向量 t i t_i t

最低0.47元/天 解锁文章
863

被折叠的 条评论
为什么被折叠?



