用100行python代码发现语音识别文本错误词，并将结果和正确词一一对应

最新推荐文章于 2024-05-02 02:06:19 发布

总裁余(余登武)

最新推荐文章于 2024-05-02 02:06:19 发布

阅读量3.2k

点赞数 10

分类专栏： NLP 自然语言处理文章标签： python nlp 自然语言处理

本文链接：https://blog.csdn.net/kobeyu652453/article/details/108938587

版权

NLP 自然语言处理专栏收录该内容

28 篇文章 74 订阅

订阅专栏

在做nlp任务时，我们常常和语音结合起来，即将语音转为文本，然后将文本做一系列任务。
但是语音转换成文本，肯定有一系列错误。
我们可以文本纠错
文本纠错见我的另一篇博客。
中文文本纠错算例实现（有算例完整代码）
这篇博客中提到要准备一个正确词的txt。
那究竟什么是正确词，对于特殊任务怎么办，
于是我们得首先发现语音识别对那些词容易识别错误。
然后将那些经常错误的词对于的正确词添加进文本纠错系统里的正确词txt中。
然后再文本纠错。

本文讲解如何发现语音转换中错误词和正确词

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu
# @Date  : 2020/10/6
#endcoding: utf-8


import numpy as np

def correct_error(sentence1,sentence2):
    """
        :param sentence1: 正确文本
        :param sentence2:语音转换的文本
        :return: 正确字周围的词数组，错误字周围的词数组
        """
    correct = []
    for i in range(len(sentence1)):#bian
        if sentence1[i] not in sentence2:
            correct1 = sentence1[i - 2:i + 2]  # 存在错误的正确字，附近的词 （i - 2:i + 2，我取长度为4即一个成语的长度
            correct.append(correct1)
    error = []
    for j in range(len(sentence2)):
        if sentence2[j] not in sentence1:
            error1 = sentence2[j - 2:j + 2]  # 存在错误的错误字，附近的词
            error.append(error1)
    return correct,error

#余弦距离计算相似度
def cosine_similarity(sentence1: str, sentence2: str) -> float:
    """
    :param sentence1: 正确词
    :param sentence2:错误词
    :return: 两个词 的相似度
    """
    seg1 = [word for word in sentence1]
    seg2 = [word for word in sentence2]
    word_list = list(set([word for word in seg1 + seg2]))#建立词库
    word_count_vec_1 = []
    word_count_vec_2 = []
    for word in word_list:
        word_count_vec_1.append(seg1.count(word))#文本1统计在词典里出现词的次数
        word_count_vec_2.append(seg2.count(word))#文本2统计在词典里出现词的次数

    vec_1 = np.array(word_count_vec_1)
    vec_2 = np.array(word_count_vec_2)
    #余弦公式

    num = vec_1.dot(vec_2.T)
    denom = np.linalg.norm(vec_1) * np.linalg.norm(vec_2)
    cos = num / denom

    sim = cos#
    return sim


def result(sentence1,sentence2):
    correct,error=correct_error(sentence1,sentence2)

    finally_result=[]#存放[[正确词1，错误词1],[正确词2，错误词2]]
    similarity = []
    for str1 in correct:#遍历每一个候选正确词
        for str2 in error:#遍历每一个候选错误词
            similarity1 = cosine_similarity(str1, str2)#计算候选正确词 与候选错误词之间的相似度

            similarity.append(similarity1)#相似度存放进数组
        print('相似度',similarity)
        if max(similarity)==0.0:
            break
        else:
            max_index = similarity.index(max(similarity))  # 相似度最大的错误词所在索引
            # print(str1, error[max_index])
            finally_result.append([str1, error[max_index]])  # 存放【正确词i,错误词i】
            similarity = []  # 匹配掉了一个正确词，清空相似度数组用于存放下一个正确词和各个错误词之间的相似度

    return finally_result

if __name__=='__main__':
    sentence1 = "重庆是中国的四大火炉之一，风景秀丽，是人间天堂。 "
    sentence2 = "重庆是中国的四大火炉之一，风景锈丽,是人间天棠。"
    print('正确文本sentence1： ',sentence1)
    print('语音文本sentence2：',sentence2)

    #sentence1=input('请输入正确文本：')
    #sentence2=input('请输入语音文本：')
    correct, error=correct_error(sentence1,sentence2)
    print('corret',correct)
    print('error',error)
    finally_result=result(sentence1,sentence2)
    print(finally_result)