nlp 中文文本纠错_基于自然语言处理的病历文本自动纠错技术

最新推荐文章于 2024-07-01 23:04:08 发布

脑洞故事板

最新推荐文章于 2024-07-01 23:04:08 发布

阅读量2.8k

点赞数 2

文章标签： nlp 中文文本纠错

本文链接：https://blog.csdn.net/weixin_30958737/article/details/112157903

版权

本文介绍了中文文本纠错在电子病历文本中的重要性，特别是在nlp领域。错误检测和纠正通常涉及分词、错误定位、候选词生成及语言模型评估。提到了一个基于pycorrector库的开放源码基线系统，并引用了《Spelling Error Correction with Soft-Masked BERT》论文，该论文提出将纠错任务拆分为检测和修正两部分，利用BERT进行序列建模。实验在SIGHAN和NEWS Title数据集上展示了良好效果。

摘要由CSDN通过智能技术生成

一. 背景和意义

电子病历文本是医生对病人病情的文字性描述，一般是医生通过手工输入电子病历系统的。难免存在错字、漏字、错标点等问题。据初步统计，电子病历中的错误率大约为每百万字符15-50处。这些错误对后期的解读和数据分析埋下隐患。

在nlp领域中文本纠错由于没有特别成熟的方法，而且用到的知识点比较繁琐，真正的应用到工业界还要考虑实际成本和效率。常见纠错内容如下所示：

- 谐音错别字：行走瓶稳----行走平稳？- 形近错别字：氨基已酸 ----氨基己酸- 多字：无为畏寒 ----无畏寒- 字词顺序错误：硫酸氯氢吡格雷 ---- 硫酸氢氯吡格雷- 缺字：右扁肿大 ----右扁桃体肿大- 顺序：予阿静滴奇 ---- 予阿奇霉素静滴

‍

二. 文本纠错定义

1.定义

文本纠错是一个重要又不重要的领域，不纠错，通常的NLP下游任务也能进行，只是会影响效果、体验，例如word2vec之类大样本训练任务；有时候用户体验直接影响收入：电商搜索。输入法，校对等。

纠错相对更偏系统工程，经常是其它nlp任务的上游，对响应速度要求较高。与分词一起，具体谁在前不一定，有分词纠错同时进行的。英文NER可以在纠错之前，中文NER一般在纠错之后。中文较少因为纠错让实体词变为非实体词

2.文本纠错分类

英文纠错
拼音纠错
中文纠错

三. 文本纠错解决方案

1.概要：

中文纠错分为两步走，第一步是错误检测，第二步是错误纠正；
错误检测部分先通过结巴中文分词器切词，由于

最低0.47元/天解锁文章

脑洞故事板

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫