基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）

福安德信息科技

已于 2024-03-20 10:37:13 修改

阅读量1.3k

点赞数 38

分类专栏：大模型文章标签：算法人工智能大模型 gpt python

于 2024-03-18 19:57:43 首次发布

本文链接：https://blog.csdn.net/qq_43128256/article/details/136818704

版权

大模型专栏收录该内容

68 篇文章 45 订阅

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径及一点个人思考
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法
大模型数据侧总结
大模型token等基本概念及参数和内存的关系
大模型应用开发-华为大模型生态规划
从零开始的LLaMA-Factory的指令增量微调
基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）

一、简介

大模型能力评估本质是对如下问答数据集的评分。

 quetions = [
        '如果我在办理建设项目抗震设防要求审批时对服务不满意，想要提出投诉，应该如何操作？',
        '请问在申请《电视剧制作许可证（乙种）》的过程中，是由哪个政府部门具体负责办理的？',
        '电视剧制作许可证（乙种）的申请在哪里办理呢？'
    ]
    answers_standard = [
        '对于办理建设项目抗震设防要求审批的投诉事宜，可以直接通过烟台市行政审批服务局的投诉电话0535-6788801进行，他们会处理你的问题并给出回应。',
        '《电视剧制作许可证（乙种）》的核发是由烟台市文化和旅游局来承办的，具体操作由烟台市政务服务中心文旅局驻厅窗口负责处理。',
        '电视剧制作许可证（乙种）的受理地点在山东省烟台市莱山区滨海路街道银海路46号的烟台市政务服务中心，具体是在A359/360窗口。'
    ]
    answers_test = [
        '可通过拨打投诉电话0535-6788801进行投诉。',
        '《电视剧制作许可证（乙种）》的核发由烟台市自然资源和规划局来承办。',
        '在山东省烟台市莱山区滨海路街道银海路46号的烟台市政务服务中心，具体是在A359/360窗口。'
    ]

可见answers_standard是标准答案，answers_test是大模型的回答答案，只需评估二者对应数据项之间的关系即可度量出大模型的回答性能。二者之间数据相似度越高，评分则越高，大模型性能则越优越。

本文针对这一需求，设计了基于实体抽取-SMC-语义向量的大模型能力评估通用算法，可有效利用NLP技术实现有效评估。

1.1 实体抽取

实体抽取，也被称为命名实体识别（Named Entity
Recognition，NER），是自然语言处理（NLP）中的一项关键任务。其目标是从原始语料中自动识别并提取出具有特定意义的实体，如人名、地名、组织机构名、时间等。

本文引入实体抽取旨在抽取标准答案与大模型答案中的指定实体，观测二者所抽实体与实体内容是否一致，一致则增加评分。

1.2 SMC词频文本相似度

“SMC词频文本相似度”是一个结合了词频（SM，可能是指"词频"或"统计模型"）和某种形式的文本相似度度量（C）的概念。在文本分析和自然语言处理中，词频通常用于衡量一个词在文本中的出现频率，而文本相似度则是用来度量两个或多个文本之间的相似程度。

本文引入SMC词频文本相似度用于作为评分固定项。

1.3 基于语义文本向量相似度

基于语义的文本向量相似度是一种度量两个或多个文本之间相似度的方法，它侧重于文本之间的语义关系而非仅仅基于表面的词汇匹配。这种方法通常结合了词频统计、文本表示学习（如词嵌入）和相似度计算算法。

在基于语义的文本向量相似度计算中，首先需要将文本转化为向量表示。这通常通过预训练的词嵌入模型（如Word2Vec、GloVe或BERT）来实现，这些模型能够将词汇或短语映射到高维向量空间中的点，使得语义上相似的词汇在向量空间中距离较近。

一旦文本被转化为向量表示，就可以使用各种相似度度量方法（如余弦相似度、欧氏距离等）来计算这些向量之间的相似度。余弦相似度是常用的度量方法之一，它通过计算两个向量之间的夹角余弦值来评估它们的相似度，值越接近1表示越相似，越接近-1表示越不相似。

本文引入基于语义文本向量相似度用于作为评分固定项。

1.4 算法总体介绍

在这里插入图片描述

二、环境准备

2.1 NER环境

采用paddle生态：

pip install paddlenlp==2.5.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple

2.2 smc环境

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

2.3 情感分析环境

pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple

2.4 文本语义相似度环境

见：

https://blog.csdn.net/qq_43128256/article/details/136498423?spm=1001.2014.3001.5502

三、代码实例

def intersection(list1:list,list2:list) -> list:
    # 将列表转换为集合
    set1 = set(list1)
    set2 = set(list2)
    # 取两个集合的交集
    intersection = set1 & set2

    # 如果需要将结果转回列表
    intersection_list = list(intersection)
    return intersection_list

def keyword_score(text1:str,text2:str,ie_model) -> float:
    ner_dict_result1 = ie_model(text1)[0]
    ner_dict_result2 = ie_model(text2)[0]

    intersection_result = intersection(list(ner_dict_result1.keys()),list(ner_dict_result2.keys()))

    result = 0
    for field in intersection_result:
        if (ner_dict_result1[field][0]['probability'] > 0.6) and (ner_dict_result2[field][0]['probability'] > 0.6):
            if ner_dict_result1[field][0]['text'] == ner_dict_result2[field][0]['text']:
                result = 1
                break
        else:
            pass
    return result


# 加载停用词
def Stop(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# 删除停用词（停用词表选用哈工大停用词表，存名为 hit_stopwords.txt）
def seg_sentence(sentence):
    A = jieba.cut(sentence.strip(), cut_all=False)
    stop = Stop('./hit_stopwords.txt')
    outstr = ''
    for word in A:
        if word not in stop:
            if word != '\t':
                outstr += word
                outstr += ' '
    return outstr

# 情感分析函数，输入为文本，输出情感得分
# 越接近1情感越积极
def sentimentAnalysis(text:str)->float:
    # 创建一个SnowNLP对象
    s = SnowNLP(text)
    # 分析情感
    sentiment = s.sentiments
    # 输出结果
    return sentiment

# 词频度量：用SMC相似度计算文本之间的相似度，输入文本1与文本2，输出文本1、文本2之间的相似度评分
# 越接近1相似度越高
def smc_similarity(sentence1: str, sentence2: str) -> float:
    sentence1 = seg_sentence(sentence1)
    sentence2 = seg_sentence(sentence2)
    # 1. 实现文本分词
    ########## Begin ##########
    seg1 = [word for word in jieba.cut(sentence1)]
    seg2 = [word for word in jieba.cut(sentence2)]
    ########## End ##########
    # 2. 建立词库
    ########## Begin ##########
    word_list = list(set([word for word in seg1 + seg2]))
    ########## End ##########
    # 3. 统计各个文本在词典里出现词的次数
    ########## Begin ##########
    word_counts_1 = np.array([len([word for word in seg1 if word == w]) for w in word_list])
    word_counts_2 = np.array([len([word for word in seg2 if word == w]) for w in word_list])
    ########## End ##########
    # 4. 余弦公式
    ########## Begin ##########
    f00 = np.sum((word_counts_1 == 0) & (word_counts_2 == 0))
    f01 = np.sum((word_counts_1 == 0) & (word_counts_2 != 0))
    f10 = np.sum((word_counts_1 != 0) & (word_counts_2 == 0))
    f11 = np.sum((word_counts_1 != 0) & (word_counts_2 != 0))
    smc = (f00 + f11) / (f01 + f10 + f00 + f11)
    ########## End ##########
    return float(smc)


# 语义度量：基于paraphrase-multilingual-MiniLM-L12-v2的文本向量化计算文本之间的相似度，输入文本1与文本2，输出文本1、文本2之间的相似度评分
# 越接近1相似度越高
def paraphrase_similarity(sentence1: str, sentence2: str) -> float:
    embedding1 =  model.encode(sentence1)
    embedding2 =  model.encode(sentence2)
    cosine_score = cos_sim(embedding1, embedding2)
    return float(cosine_score[0][0])


# 汇总评分
def calculate_score(text1:str,text2:str,ie_model) -> float:
    if ie_model(text1)[0] == {} or ie_model(text2)[0] == {}:
        result = 0
        if abs(sentimentAnalysis(text1) - sentimentAnalysis(text2)) <= 0.3:
            smc_score = 0.5 * smc_similarity(text1, text2)
            semanteme_score = 0.5 * paraphrase_similarity(text1, text2)
            result = smc_score + semanteme_score
        else:
            smc_score = 0.25 * smc_similarity(text1, text2)
            semanteme_score = 0.25 * paraphrase_similarity(text1, text2)
            result = smc_score + semanteme_score
    else:
        result = 0

        if abs(sentimentAnalysis(text1) - sentimentAnalysis(text2)) <= 0.3:
            smc_score = 0.4 * smc_similarity(text1, text2)
            semanteme_score = 0.4 * paraphrase_similarity(text1, text2)
            key_score = 0.2 * keyword_score(text1, text2,ie_model)
            result = smc_score + semanteme_score + key_score
        else:
            smc_score = 0.25 * smc_similarity(text1, text2)
            semanteme_score = 0.25 * paraphrase_similarity(text1, text2)
            key_score = 0.2 * keyword_score(text1, text2, ie_model)
            result = smc_score + semanteme_score + key_score

    return round(result,4)