ABSTRACT
三方面的工作:
- 标注一个中文出院小结的标准语料集
- 在该数据集上进行,分词和命名实体识别
- 建立一个分词和命名实体识别的联合模型
提出了一个联合模型,使用双重分解来执行两个任务,设计了三组特征来展示联合模型与独立模型,增量模型和在组合标签上训练的联合模型相比的优点。
利用336份出院小结共71 355个字。
对于分词和NER,联合模型是高效且有作用的。
INTRODUCTION
英文电子病历相关工作好,中文弱。
因中文字间没有空格,所以先分词后NER。四类实体,problems and symptoms,medical tests and assays,medications,treatments。
分词和NRE之间很相关。实体必须包含完整的词,且允许任意数量的词。
问题:
1、单词超出词典外是分词的一个挑战。当前的中文词典找不到大量的医学术语。
2、词的模糊性。比如无畏|寒和无|畏寒。
双分解的联合模型更简单,运行时间更短,效果更好。
数据集:336份中文出院小结,手工标注后,8881 medical problems, 1188 treatments, 782 medications, 1299 tests, 71355 个词。
RELATED WORK
中文分词主要由三个问题,语言资源的建造,分词歧义,超纲词汇。对于NER,大多数使用分词和词性信息作为CRF的特征。
Kruengkrai提出an error-driven word-character 混合联合模型,用于中文分词和词性标注。Hatori 提出POS标注和依赖解析的联合模型。
。。。。
结论,联合模型更好。
MATERIALS AND ANNOTATION
Dataset
从医院的不同部门中随机抽出336个出院小结。 We list some statistics, including the average number of characters, sentences, entities, etc, in supplementary material A, tables S1 and S2 (available online only). The annotation guidelines and the annotated corpus are available online at http://research.microsoft.com/en-us/projects/ehuatuo/.(说好的资料呢?)
Annotation guidelines
在附件中,给出了详细的标注规范。
Annotation flow
两个医生来独立标注,第三个医生进行判别。
大多数不一致来自医生处理词的边界。
然后进行第二轮注释,三个有计算机语言学背景的人。
Inter-annotator agreement
使用Kappa统计来评估标注一致性。
医生间的一致性低,而计算机从业者的一致性高。
METHODS
four methods: independent model, incremental model, joint model trained on combined labels (joint_CRF) and joint model using dual decomposition(joint_DD)
Conditional random fields
Baseline methods: independent models and incremental models
基线方法把分词和NER看做两个独立的任务。两个都可以看做序列化标注问题。需要独立的训练集进行训练。
明显这种忽略了任务相关性的方法性能不会很好,为此我们开发了增量模型,即NER的分词的标记结果被再用来训练模型以得到更好的效果。
增量模型的缺点:1)由独立CRF模型产生的分词和NER结果可能不准确,因此用来训练可能使错误传播;2)由于CRF算法的性质,增量模型不能捕获分词和NER之间的复杂相关性。