Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition
总述
作者提出了融入字典信息的深度学习模型,用于解决中文医学命名实体识别
问题。
融合了字典的深度模型主要的优点是,
可以克服传统深度模型难以识别出现频率少,或者从未出现的实体。
具体得,作者基于BiLSTM拓展出两个深度模型框架
,并且设计了五种特征
(题外话,其实作者可以说是三种特征)
设计的五种特征
- N-gram特征
具体的过程,首先提取出2-5gram字符串
, 共有8个字符串(左右两边),
如上图一,所示xi的2-5gram字符串,
之后用独热编码表示各个字符串,如图二所示,