文章目录
前言
本文主要介绍了以Linear-CRF为基础模型进行医疗实体识别的案例,主要包含项目概况、核心技术、项目实施3部分内容,由浅入深、适合初学者。
一、项目概况
1.项目描述
实体识别,简称 NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。如*ACM 宣布,深度学习的三位创造者 Yoshua Bengio,Yann LeCun,以及 Geoffrey Hinton 获得了 2019 年的图灵奖。*这句话中的实体有:ACM是机构名,Yoshua Bengio、Yann LeCun、Geoffrey Hinton是人名,2019 年是时间。医疗实体识别是识别出文本中一些具有特定医疗意义的实体,如疾病名、身体部位、治疗方法等。本项目基于 CRF 模型来进行医疗实体识别。
本项目会涉及到实体识别建模的各个流程:
-
数据标注:使用实体识别中数据标注的技术,对数据按照特定的方式进行标注。
-
文本特征工程:通过文本特征工程技术,构造出对本问题可能有效的特征。