摘要
融合了字典到深度神经网络中,解决了一些稀有实体不能被识别的问题。
一、简介
对每个中文字符,基于字典和上下文设计了5种不同的Schemes来创建特征向量。
介绍了两种结构融合特征向量和字的Embedding向量
二、相关工作
现有工作可分为四类:(1)基于规则的。(2) 基于字典的。(3) 基于统计机器学习的。(4) 基于深度学习的
三、模型
- Embedding层
- Bi_LSTM层
- CRF层
四、融合词典信息
N-Gram Feature
前后截取共8个截取段,每一个截取段用0/1标示是哪一类实体,故一个字有8*5=40的向量表示。
PIPE
先根据词典用BDMM切词,然后给每一个字一个标签,表示其属于哪一类实体。比如一共有5类实体,那么对每个字,都有一个0/1/2/3/4/5
的特征。
PDET
在PIPE的基础上,考虑了字在实体中的位置。
五、融合结构
这里把提取后的特征进行embedding较好
- 直接拼接
- 独立加工
六、实验结果