中文拼写纠错_医疗健康领域的短文本解析探索文本纠错

本文探讨了医疗健康领域中的短文本纠错问题,引用了学术界和工业界的最新研究,如《An Improved Graph Model》、《HANSpeller++》、《FASPell》和《Soft-Masked BERT》。通过预处理、拼写检测和纠错步骤,结合领域知识和深度学习方法,如DAE和BERT,以提高纠错效果。在垂直领域,如医疗搜索,利用知识图谱和领域词典来辅助纠错,解决用户输入错误导致的搜索难题。
摘要由CSDN通过智能技术生成

来自:丁香园大数据

前言

最近在优化dxy帖子召回问题,我们之前在医疗健康领域的短文本解析探索(一)提到了phrase mining 抽取粗粒度名词,在医疗健康领域的短文本解析探索(二)提到实体链接相关方案,但是用户在输入搜索内容时,很可能因为输入法或者是其他原因导致文本输入错误,最终导致搜索不到用户想要的结果降低用户体验。

在nlp领域中文本纠错是个坑,不能说是深坑,也就是个万丈深渊吧...?,因为目前没有特别成熟的方法,而且用到的知识点比较繁琐,真正的应用到工业界还要考虑实际成本和效率。常见纠错内容如下所示:

- 谐音错别字:耳室症如何治疗?----耳石症如何治疗?- 形近错别字:氨基已酸 ----氨基己酸- 字词顺序错误:硫酸氯氢吡格雷 ---- 硫酸氢氯吡格雷- 字词补全:右旋糖苷铁口服液 ----右旋糖苷铁口服溶液- 中文拼写错误:aspl ---- 阿司匹林,阿斯 pi ling ----阿司匹林- 语法错误 (Grammatical Error):Nothing is [absolute----absolutely] right or wrong- 常识知识错误:上海同济医院内分泌代谢科主治医师[刘辉----刘光辉]

在搜索中这些确实是常见的几种错误类型,绝大多数是一些用户习惯和输入问题,我在丁香园的搜索日志中经常见到的一些有趣的搜索问题,比方说,用户想搜索阿司匹林,可能输入aspl阿斯匹林阿司匹阿司匹 lin阿斯 pi ling等奇奇怪怪的输入。

我们调研一些学术界近期的结果和工业界常规方法。做了以下简单的总结。

正文

《An Improved Graph Model for Chinese Spell Checking 》&&《A Hybrid Model for Chinese Spelling Check》

14年的一篇文章,实验用到的数据集是SIGHAN-2013[2],借鉴分词时构建DAG(Directed Acyclic Graph )的方法,因为错误句子可能会造成错误的分词结果,会导致多种分词情况,对所有切分结果的相似拼音的字/词加入到分词的DAG中,构成一个由相似词语组成的新的DAG模型。就像下面这个例子,misspelled: "假书抵万金"。其中有一个替换原则,定义一个相似词典,所有的替换按照字典相似的词进行替换。

07cc4ed770c7b36ea95fba0c61c58a29.png

根据新的有向无环图,去找最短路径Single Source Shortest Path(SSSP),用替换词之后最合理的分词结果,就是CSC正确的结果。但是这种方式存在两个小问题,如果说分词的时候如果是单个字,那么进行替换会变的没有意义,或者说,如果是分词之后,分出去的词也是分词词典中已有的词,就不好进行纠错,比方说“我/对/心[里

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值