自然语言处理(NLP)实验——计算编辑距离

一、实验内容

计算两个英语(或汉语)字串的编辑距离;在此基础上实现一个英语单词拼写检查程序,如果单词拼写错误,则给出纠错结果。

下文代码片中读取文件的部分把路径修改成自己的就好。

二、计算两个英语(或汉语)字串的编辑距离

1.代码实现

import numpy as np

def levenshtein_distance(s1, s2):
    m, n = len(s1), len(s2)
    dp = np.zeros((m + 1, n + 1))
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s1[i - 1] == s2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1]) + 1
    return dp[m][n]

if __name__ == '__main__':
    file_path = 'big.txt'
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
    s1 = input('请输入第一个字符串:')
    s2 = input('请输入第二个字符串:')
    distance = levenshtein_distance(s1, s2)
    print('两个字符串的编辑距离为:', distance)

计算编辑距离使用Levenshtein距离算法,基本思想是通过插入、删除、替换等操作,将一个字符串转换成另一个字符串,计算转换的最小次数,即为两个字符串的编辑距离。
该算法使用一个二维数组dp来记录两个字符串之间的编辑距离。其中,dp[i][j]表示将字符串s1的前i个字符转换成字符串s2的前j个字符所需的最小编辑距离。初始时,dp[0][j]表示将空字符串转换成字符串s2的前j个字符所需的最小编辑距离,即为j,同理,dp[i][0]表示将字符串s1的前i个字符转换成空字符串所需的最小编辑距离,即为i。
对于字符串s1的第i个字符和字符串s2的第j个字符,有两种情况:如果s1[i-1]等于s2[j-1],则不需要进行任何操作,此时dp[i][j]等于dp[i-1][j-1];如果s1[i-1]不等于s2[j-1],则需要进行插入、删除或替换操作,此时dp[i][j]等于dp[i-1][j]。最后dp[m][n]即为字符串s1和s2之间的编辑距离,其中m和n分别为两个字符串的长度。

2.运行结果

输入两个字符串,输出两字符串的编辑距离。
在这里插入图片描述
在这里插入图片描述

三、英语单词拼写检查程序

1.代码实现

import enchant
import numpy as np
import re

# 创建一个英文单词拼写检查器
d = enchant.Dict("en_US")


# 定义计算单词编辑距离的函数
def edit_distance(s1, s2):
    m, n = len(s1), len(s2)
    dp = np.zeros((m + 1, n + 1), dtype=int)
    for i in range(m + 1):
        dp[i, 0] = i
    for j in range(n + 1): \
    dp[0, j] = j
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s1[i - 1] == s2[j - 1]:
                dp[i, j] = dp[i - 1, j - 1]
            else:
                dp[i, j] = min(dp[i - 1, j], dp[i, j - 1], dp[i - 1, j - 1]) + 1
    return dp[m, n]
with open("small.txt", "r") as f_in, open("right.txt", "w") as f_out:
    # 逐行读取原始文本文件
    for line in f_in:
        # 使用正则表达式匹配英文单词
        words = re.findall(r'\b[a-zA-Z]+\b', line)
        # 遍历单词列表,检查拼写并写入输出文件
        for word in words:
            if not d.check(word):
                # 如果单词拼写错误,则获取纠错后的正确单词
                suggestions = d.suggest(word)
                if suggestions:
                    corrected_word = min(suggestions, key=lambda x: edit_distance(word, x))
                else:
                    corrected_word = word
                # 判断单词是否被修改过,如果被修改过则将其写入输出文件
                if corrected_word != word:
                    f_out.write(f"{word} {corrected_word} ")

根据计算单词编辑距离的函数,实现检查单词拼写并纠正错误的功能。
读取原始文本“small.txt”,使用正则表达式匹配其中的英文单词,并遍历单词列表,检查每个单词的拼写。如果单词拼写错误,则获取所有可能的正确单词,并计算它们与错误单词的编辑距离,然后选择编辑距离最小的正确单词作为纠错后的单词。如果单词拼写正确,则直接跳过。最后将错误单词和纠错后的正确单词写入输出文件“right.txt”,并使用空格分隔。

2. 运行结果

由于实验所提供的语料“big.txt”太大,要遍历整个单词列表、检查每个单词的拼写所耗费的时间太长,所以我选择其中的第66-666行内容构成一份新的较小的语料,文件名为“small.txt”,如下:
在这里插入图片描述
检查出拼写错误的单词,并纠错,最后会生成一个新的文本文件“right.txt”将结果写入其中:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Moonee_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值