nlp 中文文本纠错_基于自然语言处理的病历文本自动纠错技术

本文介绍了中文文本纠错在电子病历文本中的重要性,特别是在nlp领域。错误检测和纠正通常涉及分词、错误定位、候选词生成及语言模型评估。提到了一个基于pycorrector库的开放源码基线系统,并引用了《Spelling Error Correction with Soft-Masked BERT》论文,该论文提出将纠错任务拆分为检测和修正两部分,利用BERT进行序列建模。实验在SIGHAN和NEWS Title数据集上展示了良好效果。
摘要由CSDN通过智能技术生成

一. 背景和意义

电子病历文本是医生对病人病情的文字性描述,一般是医生通过手工输入电子病历系统的。难免存在错字、漏字、错标点等问题。据初步统计,电子病历中的错误率大约为每百万字符15-50处。这些错误对后期的解读和数据分析埋下隐患。

503fed2067d2fd87eab9595b0bb08661.png

在nlp领域中文本纠错由于没有特别成熟的方法,而且用到的知识点比较繁琐,真正的应用到工业界还要考虑实际成本和效率。常见纠错内容如下所示:

- 谐音错别字:行走瓶稳----行走平稳?- 形近错别字:氨基已酸 ----氨基己酸- 多字:无为畏寒 ----无畏寒- 字词顺序错误:硫酸氯氢吡格雷 ---- 硫酸氢氯吡格雷- 缺字:右扁肿大 ----右扁桃体肿大- 顺序:予阿静滴奇 ---- 予阿奇霉素静滴

二. 文本纠错定义

1.定义

       文本纠错是一个重要又不重要的领域,不纠错,通常的NLP下游任务也能进行,只是会影响效果、体验,例如word2vec之类大样本训练任务;有时候用户体验直接影响收入:电商搜索。输入法,校对等。

       纠错相对更偏系统工程,经常是其它nlp任务的上游,对响应速度要求较高。与分词一起,具体谁在前不一定,有分词纠错同时进行的。英文NER可以在纠错之前,中文NER一般在纠错之后。中文较少因为纠错让实体词变为非实体词

2.文本纠错分类

  • 英文纠错

  • 拼音纠错

  • 中文纠错

三. 文本纠错解决方案

1.概要:

  • 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;

  • 错误检测部分先通过结巴中文分词器切词,由于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值