拼写纠错原理以及模型(Spelling Correction model)

本文介绍了拼写纠错的原理,包括Non-word和Real-word两种错误类型,以及基于Noisy Channel Model的纠错方法。Noisy Channel Model用于计算错误单词的原始单词概率,通过编辑距离和语言模型确定最佳纠错建议。在Real-word纠错中,通过HMM解码过程处理句子级别的纠错。此外,还探讨了中文与英文拼写纠错的区别。
摘要由CSDN通过智能技术生成

拼写纠错(Spelling Correction)

1 任务定义
拼写纠错(Spelling Correction),又称拼写检查(Spelling Checker),往往被用于字处理软件、输入法和搜索引擎中,如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2 类型
拼写纠错一般可以拆分成两个子任务:

Spelling Error Detection:按照错误类型不同,分为Non-word Errors和Real-word Errors。前者指那些拼写错误后的词本身就不合法,如错误的将“giraffe”写成“graffe”;后者指那些拼写错误后的词仍然是合法的情况,如将“there”错误拼写为“three”(形近),将“peace”错误拼写为“piece”(同音),将“two”错误拼写为“too”(同音)。

Spelling Error Correction:自动纠错,如把“hte”自动校正为“the”,或者给出一个最可能的拼写建议,甚至一个拼写建议列表。

2)Non-word拼写错误
Spelling error detection:任何不被词典所包含的word均被当作spelling error,识别准确率依赖词典的规模和质量。
Spelling error correction:查找词典中与error最近似的word,常见的方法有Shortest weighted edit distance和Highest noisy channel probability。

3)Real-word拼写错误
Spelling error detection:每个word都作为spelling error candidate。
Spelling error correction:从发音和拼写等角度,查找与word最近似的words集合作为拼写建议,常见的方法有Highest noisy channel

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值