转载:LLM做Sentence Embedding的通用方案

原文:https://zhuanlan.zhihu.com/p/710746339
作者:高瞻远

前言

最近在做RAG相关的项目,在做检索模型的时候,由于我的需求更偏向于主题检索且需要较大的通用性。现有的检索模型bge、m3e等更偏向于语义匹配,即使针对主题做模型微调也没有很好的通用性,不能很好的完成需求。尝试直接使用LLM做Embedding,主要思想是将输入添加Prompt(将输入总结成一个词),然后使用最后一个词的最后一层作为整个输入的Embedding。

这里细读下面的2篇文章,并在中文的主题分类数据集上进行测试(这里使用公开数据集-科大讯飞的长文本分类),之后希望能在项目中有较好的应用。另外,由于两篇文章的思路比较简单,这里只做简单介绍,直接在数据集上测指标。

Simple Techniques for Enhancing Sentence Embeddings in Generative Language Models

原始论文: https://arxiv.org/pdf/2404.03921

论文github: https://github.com/ZBWpro/PretCoTandKE

核心思想

使用预训练语言模型(PLM)完成Sentence Embedding任务时,一般聚焦于微调PLM,这种方式的通用性较差。直接使用LLM完成Sentence Embedding可以借助大模型的通用性,在少量数据上做调整,达到更通用的目的。经过实验后,作者发现从PLM中提取句子Embedding不是必须进行显示的限制(如: 将输入总结为1个词)。这种限制对于生成模型在直接推理场景下是有益的,但对于判别模型或生成式PLMs的微调时不是必要的。

论文的目标是提出一种既满足高质量句子嵌入的需求,又节省计算资源的方法。

文章提出了两种创新的提示工程技术,可以进一步增强预训练语言模型(PLM)Sentence Embedding的表达能力:Pretended Chain of Thought(假装思维链)和Knowledge Enhancement(知识增强)。

  1. 伪装的思维链(Pretended Chain of Thought, Pretended CoT)
  • 该方法受到零样本思维链(Zero-shot CoT)设计的启发,其核心思想是在提示中加入“After thinking step by step,”(逐步思考后)这样的前置语句。这样做的目的并不是真的要求模型输出中间推理步骤,而是希望通过这种方式激发模型更加细致地处理句子表示。
  • Pretended CoT 通过模拟逐步推理的过程,帮助模型更好地理解和压缩句子的语义信息。

Prompt如下所示:

After thinking step by step , this sentence : “[X]” means in one word:“

2. 知识增强(Knowledge Enhancement)

    • 这种方法通过在提示中加入关于文本摘要的人类经验,以文本形式直接指导模型如何提炼句子的主要信息。具体来说,它强调句子的主语和动作承载了更大的语义权重,而描述性词汇虽然重要但属于附加信息。
    • 通过这种方式,模型被引导将注意力集中在句子的核心词汇上,从而在生成句子嵌入时能够更加准确地捕捉到句子的中心意义。

Prompt如下所示:

The essence of a sentence is often captured by its main subjects and actions, while descriptive terms provide additional but less central details. With this in mind , this sentence : “[X]” means in one word:“

实验结果

文本匹配实验结果

从上表可以看出,直接使用LLM的方法在大部分的数据集上与无监督微调的通用自编码模型的结果持平,而这种方式不需要微调,且具有更高的通用性。

模型大小对结果的影响:

模型大小的影响

可以看出在350m到1.3b的模型上有大的提升,在PretendedCoT方法上从1.3b到13b上,精度提升较小。模型规模从6.7b到13b,实验的几个方法都有所提升,但提升幅度较小。

主要部分的代码实现:

from transformers import AutoModelForCausalLM, AutoTokenizer


class EmbeddingModel(object):
    def __init__(self, model_path):
        """
        初始化模型类。
        """
        self.model_path = model_path
        self.tokenizer = AutoTokenizer.from_pretrained(
                            model_path,
                            trust_remote_code=True
                        )
        self.prompt = "After thinking step by step, summry this sentence: {input}: "
        print("start to load model")
        start = time.time()
        model = AutoModelForCausalLM.from_pretrained(
            model_path,
            device_map="auto",
            torch_dtype='auto',
            output_hidden_states=True
        )
        self.model = model.eval()
        end = time.time()
        print(f"load model spend time: {end-start :.4f} s")
        
    def cons_batch(self, sentences, max_length=500):
        """
        将输入的sentences列表组成batch,批量进模型
        """
        sentences = [self.prompt.format(input=sentence) for sentence in sentences]
        batch = self.tokenizer.batch_encode_plus(
                sentences,
                return_tensors='pt',
                padding=True,
                max_length=max_length,
                truncation=max_length is not None
                )
        # Move to the correct device
        for k in batch:
            batch[k] = batch[k].to("cuda") if batch[k] is not None else None
        return batch
        
    def encode(self, sentences, batch_size=10):
        result = []
        for i in range(0, len(sentences), batch_size):
            batch = self.cons_batch(sentences[i:i + batch_size])
            with torch.no_grad():
                outputs = self.model(output_hidden_states=True, return_dict=True, **batch)
                embedding = outputs.hidden_states

                last_hidden_states = embedding[-1][:, -1, :]  # 取最后一个token的embedding

                if last_hidden_states.dtype == torch.bfloat16:
                    # bfloat16 not support for .numpy()
                    last_hidden_states = last_hidden_states.float().cpu() # size: (batch_size, 4096)
                    last_hidden_states = last_hidden_states / torch.norm(last_hidden_states, p=2, dim=-1, keepdim=True)
                result.append(last_hidden_states)
        return np.concatenate(result, axis=0).astype('float')  # size: (sentence_length, 4096)
# 这里主要注意last_hidden_states = embedding[-1][:, -1, :],取最后一个词的最后一层作为最终的Embedding

Meta-Task Prompting Elicits Embedding from Large Language Models

原始论文: https://arxiv.org/pdf/2402.18458

核心思想

跟上篇论文相同,本文用于从大型语言模型(LLMs)生成高质量的句子嵌入,而无需模型微调或处理特定任务的工程。

本文的主要思路是: 利用元任务(meta-tasks)来指导语言模型,使其能够从不同的角度生成句子的多维表示。通过构造多任务的提示词,然后使用融合的方式表示最终的句向量。但需要对多个提示进行LLMs的推断计算成本较高,不适合线上任务。

如上图所示,文章定义了4种任务,文本分类(Text Classification, TC)、情感分析(Sentiment Analysis, SA)、释义识别(Paraphrase Identification, PI)和信息提取(Information Extraction, IE)。

  • 将从不同元任务中得到的嵌入进行平均,以形成最终的句子嵌入。

实验结论:

实验结论

上述两篇文章都明确限制输出为一个词,以确保模型将整个句子的信息聚合并压缩成一个单一的、信息丰富的词。这里在测试下其他的Prompt,看下是否会有一定程度的改进。

主题分类实战

数据集: 科大讯飞的长文本分类

数据概览:

数据示例

原始数据集总共有119个主题,这里抽取其中的6个主题进行测试(这里尽量抽取独立的主题)。由于不需要做训练,这里直接使用验证集,抽取的6个类别如下所示:

label_id: {'休闲益智': 0, '亲子儿童': 1, '中小学': 2, '动作类': 3, '新闻': 4, '求职': 5}

这里使用yi-6b-chat作为本次实验的基础LLM

实验结论如下表所示:

论文1中的方法:

数据指标

论文2中的方法:(注意: 这里对于论文2,只使用文本分类的Prompt,没有使用融合的Prompt对文本多次预测。)

数据指标

可以看到在这个数据集上,直接使用LLM做主题分类基本不可用,只有10%+,分析错误分类的数据,发现很多数据在多个类别上的相似度得分很接近,例如:

"球球获取棒棒糖小工具,还有一堆小伙伴" true_label 为亲子儿童,模型的相似度得分如下:

[0.73278613 0.41378162 0.31489722 0.34612776 0.31720964 0.31542781]

模型更偏向于·休闲益智·,其次偏向于·亲子儿童·。从语义上来看,确实分为休闲益智,好像也可以。和中小学、求职等相似度很低。

简单优化1:

这里推测可能是由于定义不清晰的原因导致的,这里抽取两类('休闲益智': 0, '亲子儿童': 1)做详细的定义,实验经过定义后,会对文本分类造成什么影响。

原始Prompt的结果:

原始Prompt的结果

优化:这里调整Prompt为:

仔细思考后, 用下面词列表中的一个词总结这句话:{input} 词列表中包括
["休闲益智", "亲子儿童"], 其中“休闲益智”指的是适合青少年和儿童玩耍的游戏,例如:这是一款相当有意思的经典角色扮演趣味性十足的物理弹球游戏
;“亲子儿童”指的是适合父母与孩子一起玩耍的游戏或者婴幼儿适合玩耍的游戏,例如:从1认到10,一起学数字专属宝宝的数字学习小课堂宝宝学数字数一数

优化Prompt

调整Prompt后,对结果几乎没有影响。

简单优化2:

优化可能是匹配的句子不能直接使用类别,这里修改匹配的句子为["开发大脑的益智、休闲游戏", "给宝宝、儿童玩耍的游戏"],结果依旧没有大的改变。

初步结论: 直接使用LLM做通用的文本分类效果较差,可能需要对数据更细致的分析。

句对匹配实战

跟上次测试m3e、bce等Bert模型使用相同数据集(可以查看我的另一篇文章)新冠数据集,测试在句对匹配的场景下,直接使用LLM的表现。

直接使用LLM

使用BCE和BGE的准确率是0.86左右,初始LLM的准确率可以达到0.74,也是相当不错的水平了,在文本匹配上还有很大的优化空间,等我在项目中尝试后,会对这部分优化做补充说明。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 支持向量机非线性回归通用MATLAB程序解析 #### 一、概述 本文将详细介绍一个基于MATLAB的支持向量机(SVM)非线性回归的通用程序。该程序采用支持向量机方法来实现数据的非线性回归,并通过不同的核函数设置来适应不同类型的数据分布。此外,该程序还提供了数据预处理的方法,使得用户能够更加方便地应用此程序解决实际问题。 #### 二、核心功能与原理 ##### 1. 支持向量机(SVM) 支持向量机是一种监督学习模型,主要用于分类和回归分析。对于非线性回归任务,SVM通过引入核技巧(kernel trick)将原始低维空间中的非线性问题转换为高维空间中的线性问题,从而实现有效的非线性建模。 ##### 2. 核函数 核函数的选择直接影响到模型的性能。本程序内置了三种常用的核函数: - **线性核函数**:`K(x, y) = x'y` - **多项式核函数**:`K(x, y) = (x'y + 1)^d` - **径向基函数(RBF)**:`K(x, y) = exp(-γ|x - y|^2)` 其中RBF核函数被广泛应用于非线性问题中,因为它可以处理非常复杂的非线性关系。本程序默认使用的是RBF核函数,参数`D`用于控制高斯核函数的宽度。 ##### 3. 数据预处理 虽然程序本身没有直接涉及数据预处理的过程,但在实际应用中,对数据进行适当的预处理是非常重要的。常见的预处理步骤包括归一化、缺失值处理等。 ##### 4. 模型参数 - **Epsilon**: ε-insensitive loss function的ε值,控制回归带宽。 - **C**: 松弛变量的惩罚系数,控制模型复杂度与过拟合的风险之间的平衡。 #### 三、程序实现细节 ##### 1. 函数输入与输出 - **输入**: - `X`: 输入特征矩阵,维度为(n, l),其中n是特征数量,l是样本数量。 - `Y`: 目标值向量,长度为l。 - `Epsilon`: 回归带宽。 - `C`: 松弛变量的惩罚系数。 - `D`: RBF核函数的参数。 - **输出**: - `Alpha1`: 正的拉格朗日乘子向量。 - `Alpha2`: 负的拉格朗日乘子向量。 - `Alpha`: 拉格朗日乘子向量。 - `Flag`: 标记向量,表示每个样本的类型。 - `B`: 偏置项。 ##### 2. 核心代码解析 程序首先计算所有样本间的核矩阵`K`,然后构建二次规划问题并求解得到拉格朗日乘子向量。根据拉格朗日乘子的值确定支持向量,并计算偏置项`B`。 - **核矩阵计算**:采用RBF核函数,通过`exp(-(sum((xi-xj).^2)/D))`计算任意两个样本之间的相似度。 - **二次规划**:构建目标函数和约束条件,使用`quadprog`函数求解最小化问题。 - **支持向量识别**:根据拉格朗日乘子的大小判断每个样本是否为支持向量,并据此计算偏置项`B`。 #### 四、程序扩展与优化 - **多核函数支持**:可以通过增加更多的核函数选项,提高程序的灵活性。 - **自动调参**:实现参数自动选择的功能,例如通过交叉验证选择最优的`Epsilon`和`C`值。 - **并行计算**:利用MATLAB的并行计算工具箱加速计算过程,特别是当样本量很大时。 #### 五、应用场景 该程序适用于需要进行非线性回归预测的场景,如经济预测、天气预报等领域。通过调整核函数和参数,可以有效应对各种类型的非线性问题。 ### 总结 本程序提供了一个支持向量机非线性回归的完整实现框架,通过灵活的核函数设置和参数调整,能够有效地处理非线性问题。对于需要进行回归预测的应用场景,这是一个非常实用且强大的工具。
项目:JavaScript 中的 Canyon Runner 游戏 Canyon Runner Game 是一个 HTML5 和 JavaScript 项目。这款游戏看起来很棒,玩起来很有趣。这款游戏使用了 Phaser框架。如果你想编写一个简单的游戏,那么这款射击游戏就是你必玩的游戏。这款游戏包含大量 JavaScript,用于对游戏的某些部分进行验证。 游戏玩法 要运行此游戏,您不需要任何类型的本地服务器,但需要 浏览器。您可以使用 Google Chrome 或 Mozilla Firefox 获得更好、更优化的游戏体验。要先玩游戏,请在浏览 器中单击 index.html 文件打开游戏。打开后,将出现一个带有开始菜单选项的屏幕。游戏的控制是箭头键和空格键,用于射击障碍物。游戏有一个主要的太空敌人和一个健康强化。具有惊人的视差效果、复古声音等。 这款游戏的射击是自动的。当你开始游戏时,射手开始发射火箭。记住这是一款两级或两章的游戏。第一级处理障碍和障碍。你需要越过这些障碍,不要让它们碰到你。即使它们碰到你,你也可以通过吃健康能量来恢复你的健康。你可以跑得更快,也可以控制你的宇宙飞船速度。 当你通过第一关后,你将在第二章中面对主要敌人。他会不断向你发射火箭导弹。你必须躲避它们并保护自己。你可以用火箭导弹攻击敌人来杀死他们。如果你能杀死敌人,你就赢了游戏。 这款游戏玩起来很有趣,重制它更是有趣。所以希望你能给这款游戏添加一些额外的关卡。 要查看我们的项目,您可以查看下面的图像滑块。我们建议您使用 Google Chrome 以获得更好的游戏性能。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值