计算语言学之拼写纠错

本文介绍了英文和中文拼写纠错的方法,包括基于字典的字符匹配、统计的单词匹配,以及n-gram模型在拼写纠错中的应用。针对英文,讲解了最小编辑距离和噪声信道模型;对于中文,讨论了基于拼音和字的纠错策略,强调了上下文和同音字在纠错中的重要性。
摘要由CSDN通过智能技术生成

1. 引言

拼写检查是一个非常底层的自然语言处理方面的任务。多用在信息检索、输入法等,其实也可以扩展到寻找同义词等相关领域。这里我们主要针对英文、中文中的拼写检查的方法,进行一个简要的概述,因为这方面是一个很热门的研究方向,所以材料很多,我们只是进行入门介绍。

2. 英文拼写纠错

无论是英文拼写纠错还是中文拼写纠错,都需要两部分,一个是发现错误,一个是纠正错误。这里我们提供2种匹配方法。

2.1 基于字典的字符匹配

2.1.1 发现拼写错误

假设说,我们有一个非常完备的包含了所有正确单词的字典,那么我们只需要对输入的单词与字典中的单词一一比较,即可发现有无错误了。这是非常简单的想法。

但是如果这个词典数量非常大,在我入手的语料中,曾经入手过包含2000万单词的语料,那么这个数量如果进行一一比较的话,那速度是可以想象的。不过如果使用Trie树(我们之前讲过),那么速度可以显著性提升。也就是一个类似有限状态自动机的东西。每一个结点为27个子树(分别是26个英文字母和一个空格作为结束符),其用户在输入的时候,就同时进行路径行走,这样输入完毕就可以获得最终的单词了。如果输入的单词所走的路径不存在了,那么就提

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI让世界更懂你

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值