中文纠错实战

假设有这么一个场景,医生开处方的时候,可能写错药品和疾病名称,需要程序自动化纠错
例如:曲米新乳膏和二甲双瓜和双黄连
    曲米新乳膏 ==> 曲咪新乳膏
    二甲双瓜 ==> 二甲双胍


怎么做呢?
直觉告诉我们,应该有一个数据源,包含所有的药品疾病名称。
1、数据抓取  
    寻医问药  http://www.xywy.com/
    丁香园  http://www.dxy.cn/
    好大夫  http://www.haodf.com/yaopin/

涉及知识:
    网络爬虫
    http协议
    html
    正则
    网络代理
    字符编码
    python

开源的世界,感谢这个时代吧。
scrapy框架   https://scrapy.org/  看看demo,开始工作吧!

2、单词匹配
药品数据爬取下来后,有药品疾病的词典了。
那么怎么从一段文字中识别出哪些是药品名称呢?假设文本都是正确的,药品名称也是正确的。

涉及知识:
    前缀树匹配 

    以python语言举例吧,PyTrie
    e.g. sentence = “我有双黄连和曲米新乳膏"
    遍历所有包含最后1个字的字串
        我有双黄连和曲米新乳膏
        有双黄连和曲米新乳膏
        双黄连和曲米新乳膏
        ……
    用爬取的药品名称字典生成SortedStringTrie,对每个子串用最长前缀匹配(method:longest_prefix),
    可以得到 双黄连、曲米新乳膏这两个药品名称

3、纠错版本1.0
    好吧,做了好多前期准备工作,可以开始尝试纠错了。先看看错误的例子:
    e.g. sentence = “我有双黄联和曲米新乳膏"
    肉眼看过去  双黄联 ==> 双黄连  机器如何做呢?
    
    涉及知识:

    编辑距离就是求两个字符串的相似性
    天安门 和 天天门  distance=1
    天安门 和 天安      distance=1
    天安门 和 天安门  distance=0
    
    有了编辑距离,借助最长前缀匹配,设定距离阀值,例如4个字,允许1个字不一样,6个字允许两个字不一样。
    用前缀匹配,找到双黄连, 对应的词是双黄联, 好吧,编辑距离ok,替换吧
    双黄连 ==> 双黄连
    恭喜你,纠错成功,关上电脑,可以交差了。
    
    测试报bug了,怎么可能!!!
    e.g. 小儿柏步止咳
    纠错 小儿柏步止咳 ==> 小儿清热止咳
    小儿清热止咳和小儿百部止咳都是药品名称,按照规则,字典树找到第一个小儿清热止咳,符合编辑距离<=2。
    
    看来不能光按照字型去纠错,汉字的输入错误大部分来自同音字。
    找个汉字转拼音的工具
    pypinyin      https://pypi.python.org/pypi/pypinyin
    加上拼音的编辑距离吧,全拼和首字母的,嗯嗯 双重保险,例如必须首字母相同。
    小儿清热止咳 首字母  xeqrzk
    小儿百部止咳 首字母  xebbzk
    小儿柏步止咳  首字母  xebbzk
    纠错 小儿柏步止咳 ==>  小儿百部止咳
    
    测试还是有作用的,虽然报bug让我很不爽
    1.0版本勉强可以上线使用了,精度门槛设置会比较高,召回相对低。
    e.g. 青春都飞扬吧
    青春都 ==> 青春痘
4、纠错版本2.0
    只看相似距离,是很难去判断纠正后的句子的合理性,因为替换规则只是针对单个单词,丢掉了句子的剩余单词信息。比如,句子1:青春都飞扬吧  句子2:青春逗很多。 句子1应该不去纠错,而句子2应该纠错。
    涉及知识:
    语言模型  https://en.wikipedia.org/wiki/Language_model  本质是用统计学意义判断句子构成的合理性
    中文分词 句子分词的多少 作为判断句子合理性的一个参考因子
    语料库 从很大的文本语录中切分出unigram bigram. 这个可以从爬取药品的网站上去爬取用户咨询的问题,这些问题里面包含的药品疾病比较多,适合用作医疗领域的ngram。
    
    ngram切分用nltk(很有名的nlp python库, method:ngrams)  http://www.nltk.org/
    
    假设提取出来了unigram,bigram,那么可以试试语言模型了

    加入语言模型,去计算 替换后的句子 正确概率,找到替换后句子正确概率最大的
    
5、优化方向
    精度和召回总是一对矛盾
    概率提升的阀值,可以控制纠错的精度,但是降低了召回
    如何调整阀值,是不断试错过程。
    
    概率是基于统计学意义的,所以badcase的出现不可避免。可以通过人工的数据介入,去干预单词替换
    相近字 加入,使得替换备选集合多一些,提升召回率
    
    想要同时提升精度和召回,就需要分析badcase,设定粒度更小的精度阀值,优化是个长时间的工作。
6、总结
    英文纠错(good demo: http://norvig.com/spell-correct.html)很多是字母拼写错误,中文纠错更多的是相近字,拼音等带来的字词错误。
    纠错步骤:
    1、正确词词典
    2、从输入句子中 找到替换候选词集合
    3、语言模型判断句子合理性
    4、选出替换后最合理的句子

    精度阀值的控制 需要不断尝试,词典单词很多,且面对的是非专业领域词汇,则同样阀值前提下,纠错的精度应该会有所下降。针对特点领域的纠错是可行的,纠错的方法另一个副产品是找出相近意思的词,例如 头疼=>头痛


    
    
    
    
    

    
    
        
    


评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值