自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 llama大模型提前停止策略,实现工具调用——以Llama3为例

在大模型的generate过程中为了实现工具调用功能,模型输出到了指定的token需要执行工具的时候,需要模型的generate停止。上面的代码中,使用StoppingCriteriaList方法包裹了我们实例化的自定义的StoppingCriteria的子类,并用列表包裹起来。其中有一个参数:stopping_criteria,用于判断模型输出是否应该停止,下面介绍具体方案。上面的代码中,构造函数一般用来确定我们要停止的tokens。缺点:感觉这样的方案使得模型的推理失去了并行性。

2024-05-21 21:22:39 1234

原创 大模型微调之添加special_token改变词表大小并进行微调方法——以llama3为例

llama-3-8B-Instruct是llama3的一个专门在指令微调上进行预训练的一个模型。加载模型和tokenizer128256可以看到词表的大小和embeding以及lm_head的关系接下来我们需要扩充词表。扩充词表有两种,请一定要注意!!!一种是添加special_token,比如pad_token,另一种是添加普通的token。这篇博客聚焦于add_special_tokens函数。

2024-05-16 14:42:20 2429 2

原创 Trainer中的训练细节之自动评估

do_eval来判断是否需要进行eval,evaluation_strategy表示eval的策略,其中evaluation_strategy的优先度更高(即if evaluation_strategy!)后面在配置文件中改成do_eval:Flase,eval_strategy=no,也无效,最好的方法是直接将两者注释掉这样的话也不会进行评估。代码将args = training_args传入了(training_args正是和eval相关的参数)。大胆的猜测和上面的参数相关。

2024-05-10 10:58:21 539

原创 NCCL (Nvidia Collective Connection Library)Timeout

当进行深度学习模型的分布式训练时,多个GPU需要进行数据和梯度的交换以保持模型的同步和更新。它利用GPU的并行计算能力和专用的高速通信网络,可以实现高效的数据传输和同步操作。超时错误通常会中断当前的训练过程,并需要通过排查网络、系统和硬件等方面的问题来解决。调整超时参数、优化网络设置、增加系统资源,添加NvLink等方式可能有助于减少NCCL Timeout的发生。NCCL Timeout指的是在进行NCCL通信时,某些操作没有在预定的时间内完成,导致超时错误。

2024-05-10 01:09:15 737

原创 SFT只训练指定的部分

第一个for循环,找到labels中和response_template相同token的最后一个的index作为response_token_ids_start_idx,然后将labels中的开头到responese_tempalte的最后一个token都标记为-100,这样的话就不会计算损失了。要训练指定的部分,需要对tokenizer返回的labels进行特殊的标记,这个特殊的标记的实现过程要进行DataCollatorForCompletionOnlyLM这个进行修改。我们来阅读一下这个类的源码。

2024-05-09 19:23:59 724

原创 构造自己的jsonl数据集

大语言模型数据重构

2024-04-17 00:09:38 556

原创 Langchain入门2-retrieval模块

结果是:Langsmith can help visualize test results.但是通过指定内容进行回答失去了检索的本质。本章主要以代码的形式展示。

2024-04-07 13:01:27 163

原创 Langchain入门1

)chain1 = prompt | llm #链式连接,类似于管道,将prompt输入到llm中'})下面的输出结果和上面的一致,在有回复的结果的同时,还包含了各种信息。

2024-04-07 12:27:33 288

原创 Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval

1、首先,使用unimodal pretrained models得到一个模态的编码,比如视觉的S3D和Clip模型,text的Bert模型。2、在visual-text dataset数据集上使用掩码学习和对比学习去对齐在第一轮得到的单模态的特征。1、第二轮中需要大量的数据和计算量2、第二轮中的video数据需要和下游任务强烈的相关。

2024-02-27 15:32:18 883

个人银行管理程序——c++ 到 Java程序的改写_3

本资源对应博客个人银行管理程序——c++到java程序的改写_3,压缩包中包含所有的c++和java源代码,欢迎大家下载查阅使用。

2020-11-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除