知识图谱部分（早期1）

element.wen

已于 2024-09-04 19:38:33 修改

阅读量923

点赞数 19

分类专栏： 23下学LLM 知识图谱文章标签：知识图谱人工智能

于 2024-04-19 17:18:20 首次发布

本文链接：https://blog.csdn.net/li3439253684/article/details/137971435

版权

23下学LLM 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

知识图谱

6 篇文章 0 订阅

订阅专栏

2023-12-01

prompt engineering

什么是prompt engineering？

Prompt engineering is not just about designing anddeveloping prompts. It encompasses a wide range ofskills and techniques that are useful for interacting anddeveloping with LLMs. lt's an important skill to interface,build with, and understand capabilities of LLMs. You canuse prompt engineering to improve safety of LLMs andbuild new capabilities like augmenting LLMs with domainknowledge and external tools.

提示工程不仅仅是设计和开发提示。它包含了广泛的技能和技术，这些技能和技术对于与LLM进行交互和开发非常有用。这是一项重要的技能，与LLM的接口，建立和理解能力。使用者可以使用及时的工程来提高LLM的安全性，并构建新的功能，比如使用领域知识和外部工具增强LLM。

它包括了一系列技术用于与大模型进行交互，能够将大模型的能力充分发挥出来，

Prompt engineering

几种形式

1.简单技巧：prompt writing skills，如几个方面：1.结构化，prompt结构化，和要求大模型输出结果的结构化，提升整个大模型的可控性2.train of thought提升模型思考深度3.不断迭代prompt，需要根据大模型输出结果优化

2.使用数据：让大模型使用特定领域的数据，Data-aware prompting，让他在一个固定的context下（context可能是个很大的知识领域）做回答，不让他一本正经的胡说八道，如客服聊天工具，让他回答用户的问题，因为不可能把所有的知识领域都传过去，那么需要根据用户的输入，找到相关的context给他传过去，给他一个知识领域Vector Database，向量数据库，（可能需要微调大模型）

3.使用工具：教会大模型实用工具，怎么让他判断需要使用工具，第二个是怎么让他跟工具交互（一般使用特定的API），

4.迭代能力：让大模型自己根据使用工具的结果，能够不断迭代自己对一个问题的认识和下一步策略的能力（典型例子AutoGPT）

5.终极形态：AI agent，能使用上面所有的技巧

向量数据库：是一种将数据存储为高维向量的数据库类型，这些向量只是数据特征或属性的数学表示，每个向量有一定数量的维度（几十~1000），原始数据可以是文本，图像，音频什么的，嵌入函数也可能是一个机器学习模型，也可能是单词嵌入或简单的特征提取算法

向量数据库的优势：可以实现快速和准确的相似性，基于向量距离或相似度的数据搜索和检索，在向量数据库中如果取两个不同的点，越接近的点，相似度越高。

典型的关系型数据管理系统需要经过精确匹配，向量数据库更轻松的提取数据检索数据。

Prompt engineering问题

就是好多关于prompt engineering的介绍，但是很少有说明与数据集使用的，是如何使用的

？

Pass前期可以使用向量数据库vector database吗？

Pass又怎样通过给大模型一个专业领域的vector database，使其根据用户的输入，找到相关的context回答，并能输出此领域的知识图谱三元组？

AutoPrompt: Eliciting knowledge from language models with automatically generated prompts（2020）提出了采用自动搜索prompt模板词的方法，其基本思路建立在，从词表中遍历所有词，看哪些词组成的prompt模板能最终生成训练数据中待填充的词，相当于一个逆向操作。Prompt模板需要填充的词最开始用[MASK]初始化，然后去看使用其他词替换[MASK]会让label的概率最大，逐步替换[MASK]，得到template。

Template 模板

特征工程（feature engineering），即利用领域知识从数据中提取好的特征；

结构工程（architecture engineering），即通过通过设计一个合适的网络结构来把归纳偏置（inductive bias）引入模型中，从而有利于学习好的特征。

预训练 + 微调（pre-train and fine-tune）。在这个模式中, 先用一个固定的结构预训练一个语言模型（language model, LM），预训练的方式就是让模型补全上下文（比如完形填空）。

由于预训练不需要专家知识，因此可以在网络上搜集的大规模文本上直接进行训练。然后这个 LM 通过引入额外的参数或微调来适应到下游任务上。此时研究者转向了目标工程（objective engineering），即为预训练任务和微调任务设计更好的目标函数。

预训练微调和prompt微调

Prompt

使用Prompt数据集，通过新加少量可学习参数，在Prompt和大模型之间，做一个新的建模，以让用户更容易地从大模型那里获取想要的答案，来驾驭大模型。

提示的构成

。指示: 对任务进行描述

。上下文: 给出与任务相关的提它背最信息(尤其在多轮交互中)

·例子:必要时给出举例，学术中称为单镜头学习，少镜头学习或上下文学习;实践证明其对输出正确性有帮助

。输入: 任务的输入信息;在提示议中明确的标识出输入

·输出:输出的格式描述，以便后继模块自动解析模型的输出结果，比如 (JSON，XML)

存在一种方式，可以将预训练语言模型作为电源，不同的任务当作电器，仅需要根据不同的电器（任务），选择不同的插座，对于模型来说，即插入不同的任务特定的参数，就可以使得模型适配该下游任务。Prompt Learning 就是这个适配器，它能高效得进行预训练语言模型的使用。

Prompt Tuning，对于不同的任务，仅需要插入不同的prompt 参数，每个任务都单独训练Prompt 参数，不训练预训练语言模型，这样子可以大大缩短训练时间，也极大的提升了模型的使用率。

在做 objective engineering 的过程中，研究者发现让下游任务的目标与预训练的目标对齐是有好的。因此下游任务通过引入文本提示符（textual prompt），把原来的任务目标重构为与预训练模型一致的填空题。

用不同的 prompt 加到相同的输入上，就能实现不同的任务，从而使得下游任务可以很好的对齐到预训练任务上，实现更好的预测效果。

Prompt Fine tuning大模型微调

1.Fine tune大模型微调策略

一个比较直接的共享参数的方法是只微调部分参数，或者向预训练模型中加入少量额外的参数。比如，对于分类任务：

● Linear：只微调分类器 (一个线性层), 冻结整个骨干网络。

● Partial-k：只微调骨干网络最后的 k 层, 冻结其他层 [2][3]。

● MLP-k：增加一个 k 层的 MLP 作为分类器。

● Side-tuning [4]：训练一个 “side” 网络，然后融合预训练特征和 “side” 网络的特征后输入分类器。

● Bias：只微调预训练网络的 bias 参数 [5][6]。

● Adapter [7]：通过残差结构，把额外的 MLP 模块插入 Transformer。

然后transformer和Convnet

Transformer 与 ConvNet 比较：Transformer 相比于 ConvNet 的一个显著的特点是：它们在对于空间（时间）维度的操作是不同的。

● ConvNet：卷积核在空间维度上执行卷积操作，因此空间内不同位置的特征通过卷积（可学习的）操作融合信息, 且只在局部区域融合。

● Transformer：空间（时间）维度内不同位置的特征通过 Attention（非学习的）操作融合信息，且在全局上融合。

Transformer 在特征融合时非学习的策略使得其很容易的通过增加额外的 feature 来扩展模型。

prefix语前缀

prefix-tuning在模型输入前添加一个连续的且任务特定的向量序列称之为prefix，固定PLM的所有参数，只更新优化特定任务的prefix。

prefix-tuning之前的工作主要是人工设计模板或者自动化搜索模板，也是prompt范式的第一阶段，就是在输入上加上prompt文本，再对输出进行映射。这种离散模板对模型的鲁棒性很差。所以后续的研究都将离散的方式转成连续。

Prefix tuning

1.Prefix tuning将prefix参数（可训练的张量）添加到所有的transformer层

2.机制：将多个prompt vectors 放在每个multi-head attention的key矩阵和value矩阵之前。

3.计算方式：相当于原始的token要多和这些soft prompt token计算相似度，然后聚合。

Prompted提示方法的分类：

提示模板工程（prompt template）是创建提示函数f（x）的过程，该函数可在下游任务上获得最有效的性能。在之前的许多工作中，这涉及到人类工程师或算法为模型预期执行的每个任务寻找最佳模板。如图prompt template部分所示，必须首先考虑提示形状，然后决定是采用手动还是自动方法来创建所需形状的提示。

与为提示方法设计适当输入的提示模板工程不同，提示答案工程旨在搜索答案空间Z和原始输出Y的映射，从而产生有效的预测模型。图中的“prompt answer engineering”部分说明了在执行提示答案工程时必须考虑的两个维度：决定答案形状和选择答案设计方法。

回去看数据集（信息抽取），

NLP信息抽取&知识图谱生成实战案例：联合关系抽取JointER$Casrel原理及代码讲解_哔哩哔哩_bilibili

哔哩哔哩工房 (bilibili.com)

【信息抽取】基于prompt的通用信息抽取方案——千言数据集_哔哩哔哩_bilibili

然后看能否用于咱们的模型，找数据集（啥数据集都行），然后可以对大模型进行适当prompt tuning，让大模型LLama2输出咱们要的知识图谱三元组，