Datawhale AI夏令营从零入门 AI 逻辑推理 Task04

最新推荐文章于 2024-10-04 22:36:54 发布

li_zi_gao

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量674

点赞数 11

文章标签：人工智能

本文链接：https://blog.csdn.net/li_zi_gao/article/details/140882803

版权

1.1 lora相关微调的方案：

Low-Rank adaptation, LoRA：通过减少训练的参数数量，使得训练的参数更少，但是却能获得与微调基本相当的性能。（将参数W的原始矩阵d × d，设置为两个新的矩阵A d × r 和 B r × d）。
LoRA+：为矩阵a和b引入不同的学习率，将矩阵B的学习率设置为远高于矩阵A的学习率。
VeRA(Vector-based Random Matrix Adaptation)：添加两个新的向量d和B，微调的时候只训练向量d和B。
LoRA- FA：矩阵A在初始化后被冻结，因此作为随机投影。矩阵B不是添加新的向量，而是在用零初始化之后进行训练。
LoRA-drop：Lora矩阵可以添加到神经网络的任何一层。LoRA-drop则引入了一种算法来决定哪些层由LoRA微调，哪些层不需要。
AdaLoRA：建议考虑将LoRA矩阵的奇异值作为其重要性的指标。
DoRA：将预训练矩阵W分离为大小为1 x d的大小向量m和方向矩阵V，从而独立训练大小和方向。然后方向矩阵V通过B* a增强，然后m按原样训练。
Delta-LoRA：提出用AB的梯度来更新矩阵W, AB的梯度是A*B在连续两个时间步长的差。这个梯度用超参数λ进行缩放，λ控制新训练对预训练权重的影响应该有多大。

1.2 pfet库

1.3 全量微调

2.1 agent如何优化？

Agent = 大语言模型（LLM） + 观察 + 思考 + 行动 + 记忆

与人类进行类比：

大语言模型（LLM）：LLM作为智能体的“大脑”部分，使其能够处理信息，从交互中学习，做出决策并执行行动。
观察：这是智能体的感知机制，使其能够感知其环境。智能体可能会接收来自另一个智能体的文本消息、来自监视摄像头的视觉数据或来自客户服务录音的音频等一系列信号。这些观察构成了所有后续行动的基础。
思考：思考过程涉及分析观察结果和记忆内容并考虑可能的行动。这是智能体内部的决策过程，其可能由LLM进行驱动。
行动：这些是智能体对其思考和观察的显式响应。行动可以是利用 LLM 生成代码，或是手动预定义的操作，如阅读本地文件。此外，智能体还可以执行使用工具的操作，包括在互联网上搜索天气，使用计算器进行数学计算等。
记忆：智能体的记忆存储过去的经验。这对学习至关重要，因为它允许智能体参考先前的结果并据此调整未来的行动。

优化：