自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 个人编程助手: 使用LLM训练你自己的编码助手

​在编程和软件开发这个不断演变的领域中,对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现,如 Codex、StarCoder 和 Code Llama。这些模型在生成类似人类编写的代码片段方面表现出惊人能力,显示出了作为编程助手的巨大潜力。你能够根据自己的特定需求定制代码生成模型,并且这种个性化的编程助手能够在企业规模上得到应用。

2023-12-19 14:25:02 1039

原创 使用fastgpt高效搭建本地离线大语言模型(Chatglm2)问答平台

官网的接入本地模型的流程,写的太笼统且分散了,踩了无数坑,在阿里云上ubuntu20使用fastgpt部署好了本地离线大语言模型问答平台

2023-10-23 15:03:41 5273 2

原创 保姆级LLM训练教程:阿里云平台使用accelerate,deepspeed多机多卡训练Chatglm2-6B

网上的教程,都基本上可能他们自己都能调通,但是,很多细节都没有给出,如何从0到1去搭建多机多卡训练是个很大的难题。本教程是保姆级的教程,搭建数据多机多卡分布式训练,训练的策略是lora

2023-10-19 16:21:46 3811 8

原创 python下载HuggingFace的模型

python下载HuggingFace的模型

2023-10-16 11:58:58 190 1

原创 什么是LoRA?白话加上源码讲解

LoRA(的来由:全参微调没有足够的机器,Adapter Tuning存在训练推理延迟,Prefix Tuning会减少原始训练数据中的有效文字的长度,是否有一种微调方法能改善不足呢?LoRA低秩适配器就这样诞生了。

2023-09-26 14:29:21 259 1

翻译 HuggingFace文档中文翻译

其实学习的过程不过就是查文档,学习文档的过程,不可能什么事情都需要我们自己去造轮子呀,但是如果不读文档,你就不知道有哪些功能,不记得API可以去查,但是,不知道功能,怎么去查呢?英文文档真的会降低速度,所以自己翻译过来就好了。

2023-09-26 09:20:01 422 1

原创 如何生成文本:使用不同的解码方法通过 Transformers 生成语言

什么是温度?什么是topk,top-p?什么是采样sample?什么是贪心搜索(Greedy Search)?什么是束搜索(Beam Search)?白话解答

2023-09-25 18:05:24 83 1

原创 为什么LLM(大模型)使用的是左填充

然而,算法总是选择最后一个 token 的 logits 来预测下一个 token,如果我们在右侧进行填充,则模型实际上是使用 [pad] 的 logits 来预测下一个 token!2、在生成的过程中,生成算法总是用最后一个token的logits去预测下一个token,如果使用右填充,使用的是pad的logits对下一个token采样,这可能会导致生成结果出现错误。注意 logits = logits[:,-1,:]这一行,如果使用右填充,则会得到,我有一个苹果。

2023-09-25 14:15:51 418 1

原创 白话deepspeed里面的ZeRO1,2,3以及affload以及实战演练

微软deepspeed的ZeRO的理解,以及实战

2023-09-20 10:26:03 3708 2

原创 deepspeed的参数

deepspeed的参数很多,都可以在ds_config里面配置,字典格式,但是英文文档让人看着总感觉不习惯,所以,看完英文文档的同时,将其部分翻译成中文文档,以供后续训练的时候观看。

2023-09-20 09:24:43 1008 1

原创 deepspeed分布式训练demo

我们需要修改三个文件:argument.py pretrain_gpt2.py 以及utils.py这三个分别对应着参数,训练,以及保存加载等过程。2、修改pretrain.py,主要就是,model 、优化器丢到deepspeed在设置优化器的时候,我们直接使用Adam系列就行3、设置成deepspeed的反向传播所以训练模型的时候都可以这三步走。

2023-09-20 09:16:50 376 1

原创 css的应用

pythonCss基础

2022-11-06 23:46:23 396 1

原创 mysql和python的交互:pymysql

mysql和python的交互:pymysql

2022-10-19 20:29:26 489

原创 Python进程基础知识

Python进程相关的知识点

2022-10-18 16:08:27 118

deepspeed的参数

deepspeed的参数

2023-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除