python爬取电子病历_一种基于中文电子病历的实体识别方法技术

本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明专利技术提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。

【技术实现步骤摘要】

一种基于中文电子病历的实体识别方法

本专利技术涉及自然语言处理领域,尤其涉及电子病历的命名实体识别。

技术介绍

最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建,基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,该评测包含3个子任务,分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取,并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。对于电子病历命名实体研究,DingchengLi等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法,并结合SNOMED-CT词典进行电子病历命名实体识别,其中CRF模型达到了较好的效果。MinJiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE,DST,KnowledgeMap)的结果作为特征,系统的评估了采用不同特征及机器学习算法的识别效果,并提出了一个集成规则与机器学习算法的实体抽取系统。SiddharthaJonnalagadd等人则是在基本特征的基础上,增加分布式语义特征,采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。中文电子病历命名实体研究仍处于起步阶段,叶枫等人基于CRF算法,对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别,构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试,但该研究对实体类型定义不能够覆盖所有的医疗实体,语料规模也较小。LeiJianbo等人共选取了包含病程记录和出院小结在内的800份病历文本,以此构建了命名实体标注语料,他们共定义了四种医疗实体:医疗问题、检查、药物、手术,对比了CRF、SVM、ME、SSVM四种算法的效果,其中SSVM模型的表现最好,病程记录训练出的模型的F值可以达到93.53%,而出院小结的F值则为90.01%。XuYan等人构建了包含336份出院小结在内的标注语料,主要针对医疗问题、检查、治疗和药物四类实体,并提出了基于对分解的分词及命名实体识别联合模型。

技术实现思路

现有研究主要针对英文电子病历,在中文电子病历实体识别中,由于缺少公开中文电子病历标注语料库以及词典资源,使得其研究缓慢,同时一般的基于特征的实体识别方法都是对词进行直接分析,而没有深入分析到词向量,也忽略了实体间的一定相似度可以用聚类方法求得这一特点。电子病历实体识别是智能医疗推进的一项重要任务,将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的,中文研究由于缺少公开中文电子病历标注语料库以及词典资源,一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题,本专利技术在进行一定规模的中文电子病历语料库标注后,给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。为了实现上述目的,本专利技术给出的技术方案为:本专利技术提供一种基于中文电子病历的实体识别方法,所述方法包括:半自动中文电子病历语料库标注;对使用jieba和nlpir两个分词器对中文电子病历进行分词,词、词性以及上下文信息构成实体识别的基本特征;提取电子病历的章节名字为章节信息特征;构建核心词词典,提取分词之后每个词的核心词特征;利用Word2Vector计算每个词的词向量,用k-means进行聚类,将每个词的聚类结果表示为词聚类特征;章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征;将上述基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器,抽取中文电子病历的实体。以上本专利技术给出一种针对中文电子病历的基于特征工程的综合性的实体识别方法,利用条件随机场CRF进行识别,将特征分为了基本特征和扩展特征,其中扩展特征针对中文电子病历的特有特点展开,包括电子病历文本差别于其它文本的特点和中文电子病历差别于英文电子病历的特点,同时通过词向量进行聚类,将聚类结果作为一个新特征加入很好的考虑了同一实体间的相似性特点。可选的,本专利技术给出了针对中文电子病历的标注,并收集了医学词典利用反向最大匹配算法(现有技术)进行自动标注,然后邀请医院的两名全科医生进行人工核对、查漏补缺,最后得到一定规模的中文电子病历标注语料库。特征选择特征选取对于机器学习方法及其重要,本专利技术所选用的特征分为两大类:基本特征和扩展特征。其中扩展特征针对中文电子病历的特点从两方面进行选择:电子病历文本区别于一般文本的特征和中文电子病历文本区别于英文电子病历文本的特性。1.语言符号特征:在这里表示词特征。由于中文不能像英文用空格进行分词,因此还需要选择分词器。本专利技术选用了jieba中文分词和哈工大的nlpir分词器两个分词工具,因为它们不是专门面向医学领域,将本文收集的医学词典加入了其用户字典。2.词性特征:即分词后的词性。词性特征在中文中对于识别实体的边界有很大作用,如在电子病历中“得”、“患”等动词指出了疾病实体的边界,“服用”等动词指出了治疗实体的边界等。本专利技术研究的词性标注工作将由分词工具jieba和nlpir完成。3.章节信息特征:电子病历章节标题名称。这是电子病历区别于其它文本的一个特征,也体现了电子病历的半结构化文本特点。在电子病历中不同章节对应的实体是有一定规律的。在病程记录中,“病例特点”章节中涵盖了疾病、症状、检查和治疗四个实体,而“初步诊断”章节中只存在疾病实体,“诊疗计划”章节中只存在治疗实体;在出院小结中,“入院诊断”和“出院诊断”章节只存在疾病实体,“入院情况”和“出院情况”主要有疾病、症状、检查实体等。因此,电子病历的章节标题对于实体类别的识别具有较大帮助。4.核心词特征:对标注的中文电子病历的实体以及收集到的医学词典进行统计分析可以分析出中文电子病历中出现的实体具有一定的特点。疾病名通常由修饰部分、身体部位、基本疾病名组成;症状名通常由身体部位、修饰部分、核心词组成;检查名通常由“细胞”、“查”、“病理”、“常规”等核心词组成;治疗名中手术名通常由“化疗”、“术”、“处理”、“护理”等核心词组成,药物名通常由“胶囊”、“丸”、“颗粒”、“片”等核心词组成。本专利技术以此构建了四个核心词词典用于指示核心词特征。5.词向量的聚类特征:一般命名实体识别通常将词本身作为最基本的特征用于模型的构建,而词本身并不能反映词与词之间的关系,因此可以将词表示作为特征加入模型。引入词表示方法主要有两种,一种是直接将词向量作为特征加入,另一种是通过词向量建立词与词之间的联系。词与词之间的联系可以通过聚类得到,每个词对象对应一个类别。本专利技术研究采用开源工具Word2Vector计算词向量,并通过k-means算法进行聚类。有益效果针对中文电子病历实体识别方法缺少公开标注语料库、一般基于特征的方法没有充分考虑到中文电子病历文本的特有特征等问题,实现了结合词向量和聚类并且从多方面进行特征扩展的中文电子病历实体识别方法,有助于深入挖掘电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答。附图本文档来自技高网...

【技术保护点】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k‑means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。

【技术特征摘要】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k-means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。2.根据权利要求1所述的方法,其特征在于,步骤1中利用半自动标注方法对中文电子病历进行标注,方法步骤具体包括:步骤1.1、收集医学词典,将其整理为疾病词库、症状词库、检查词库、治疗词库;步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注;步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏...

【专利技术属性】

技术研发人员:闫凤麒,张贝贝,陆明名,

申请(专利权)人:上海熙业信息科技有限公司,

类型:发明

国别省市:上海,31

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值