自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

鲨鱼儿的博客

一个小白学习AI,有朋友发现错误欢迎指出

  • 博客(242)
  • 收藏
  • 关注

原创 llama3-8b-instruct-262k微调过程的问题笔记(场景为llama论文审稿)

我使用longqlora zero3模型微调 llama3-8b-instruct-262k,开启了shift short attention + flash attention v2,训练的过程中一切正常,loss正常下降,使用的设备为 A6000 (48G),占用的显存为30G左右,但在trainer保存模型时(模型 + zero3 优化器状态),显存的占用会出现短暂的暴涨为58G,模型保存后显存暂用恢复至30G左右。2. 验证集的验证方法选择什么样的方式来判断最佳模型。

2024-05-25 17:05:38 695

原创 flash attention 参数(笔记)

flash官方。

2024-04-28 20:07:53 1543 3

原创 个人笔记目录

Huggingface trainer 与 from_pretrained简单介绍(笔记)_trainer.place_model_on_device-CSDN博客总的来说,这个函数负责完成训练前的所有准备工作,包括加载检查点、设置超参数搜索、配置训练环境等,最终调用内部训练循环执行实际的训练过程。它提供了一些可配置选项,如从检查点恢复训练、超参数搜索和忽略评估时的某些键等,以满足不同的训练需求。类的主要训练入口点。

2024-04-14 20:18:52 1224

原创 Trl SFT: llama2-7b-hf使用QLora 4bit量化后ds zero3加上flash atten v2单机多卡训练(笔记)

第三 参考官方命令: https://github.com/Dao-AILab/flash-attention。第一 确保 linux "外界"的 cuda版本 与 conda 虚拟环境中cuda版本一致。第二 安装好 c++ g++ ninja。

2024-04-12 13:46:22 1095

原创 Huggingface trainer、model.from_pretrained、tokenizer()简单介绍(笔记)

总的来说,这个函数负责完成训练前的所有准备工作,包括加载检查点、设置超参数搜索、配置训练环境等,最终调用内部训练循环执行实际的训练过程。它提供了一些可配置选项,如从检查点恢复训练、超参数搜索和忽略评估时的某些键等,以满足不同的训练需求。类的主要训练入口点。它负责设置训练环境、加载模型检查点、配置超参数搜索、寻找可执行的批次大小,并最终执行内部训练循环。函数是 Hugging Face Transformers 库中。

2024-03-31 22:25:20 1862 1

原创 ssh 公私钥(github)

生成自定义名称的SSH公钥和私钥对,需要使用ssh-keygen命令,这是大多数Linux和Unix系统自带的标准工具。下面,我会向你展示如何使用ssh-keygen命令来生成具有自定义名称的SSH密钥对。

2024-03-28 22:15:55 862

原创 全量微调Llama2-7b遇到的错误(stanford_alpaca)

模型:Llama-2-7b-chat-hf。openai的版本不对,更换版本。

2024-03-24 23:24:32 1004

原创 常用的代码组件

【代码】常用的代码组件。

2024-03-22 15:43:18 123

原创 vscode调试launch.json常用格式

命令行deepspeed 进行执行,构建launch.json 思路。进行执行,构建launch.json 思路。与调试单个文件同理,只是重复。

2024-03-22 15:24:06 1431

原创 微调alpaca-lora遇到的一些问题

环境:系统:Ubuntupeft:0.9.0。

2024-03-21 22:07:47 632

原创 huggingface generate函数简介

函数的一些重要参数,它们控制了生成过程的各个方面,如起始输入、序列长度、解码策略、采样行为等。根据具体任务和需求,适当调整这些参数可以获得更好的生成效果。函数是用于生成文本序列的核心函数。它通常应用于自然语言生成任务,如机器翻译、文本摘要、对话系统等。其他参数可以使用默认值,除非你有特殊的需求。合理设置这些参数对于获得良好的生成效果非常重要。在 Hugging Face Transformers 库中,通常,你只需要根据任务需求设置。和生成策略相关参数(

2024-03-18 12:08:42 1786

原创 deepspeed分布式训练在pytorch 扩展(PyTorch extensions)卡住

PyTorch extensions 初次构建需要一定的时间,如果构建失败需要将之前构建的缓存删除,否则就有可能卡住较长的时间。出现在多卡训练过程的pytorch 扩展,deepspeed 长时间卡住(1-2小时)重新运行训练脚本,程序work。

2024-03-15 23:09:27 781 1

原创 高效加载大文件(pandas+dask)

要在单机环境中对Dask进行多进程数的控制,你可以使用模块创建一个本地集群,并控制其工作进程数量。通过这种方式,你能够显式地设定并发执行任务的工作线程或进程数目。"""使用 Dask 初始化加载器并设置多处理。:param filepath: 要读取的文件路径。:param blocksize: 单个块(block)读入内存时占用字节大小,默认值设定为128MB。根据系统和硬件配置调整blocksize大小以获得最佳性能,较小值将导致更高I/O频率但容易管理(内存使用上);

2024-03-07 16:00:58 884

原创 安装PyTorch-Lightning踩坑

lightning时一定注意自己的torch是pip安装还是conda安装,两者要保持一致,否则也会导致你的torch版本被替换。conda install pytorch-lightning==版本名。,否则如下图会直接卸载掉你的torch而安装cpu版本的torch。pip install pytorch-lightning==版本名。

2023-09-20 07:31:32 1436

原创 类继承测试

【代码】类继承测试。

2023-09-17 07:11:33 236

原创 安装nltk

nlp入门之nltk工具使用 - 知乎

2023-09-09 16:56:05 15

原创 torch 中的广播机制

一、元素级操作广播机制(对应位置相加)二、矩阵乘法广播机制。

2023-08-15 18:18:59 423

原创 ubuntu 18.04 crontab 设置启停

linux

2022-12-12 17:23:22 2981 1

原创 机器学习绘图神器 scikit-plot

sckit plot 绘制机器学习常见图例

2022-02-22 20:04:29 86

原创 手写实现skip gram并实现霍夫曼树与负采样优化

手写实现skip gram,使用霍夫曼树与负采样进行优化

2022-02-22 19:57:40 44

原创 m1 Mac 使用 miniconda 安装python3.8.11 和 tensorflow2.5 & pytorch1.8(推荐)

M1 mac 安装minicoda并安装tensorflow2.5&pytorch1,8

2021-12-03 16:14:39 4318 1

原创 M1 芯片mac搭建环境遇到的问题

M1 芯片python环境问题

2021-12-02 16:57:21 1892

原创 m1 Mac 使用 miniforge 安装python3.9.7 和 tensorflow2.5 & pytorch1.8

m1 mac 安装 python3.8 tensorflow2.5 pytorch1.8环境

2021-12-01 20:15:08 7107 5

原创 mac/linux 添加环境变量(.bash_profile 与 .zshrc)

使用惯了win,在用mac系统添加环境变量总觉得麻烦,而且几个配置文件也没弄到底有什么区别,今天就来总结一下1. 环境变量的作用:我们先来看这样的一个使用场景1,我们有一个程序Java,需要读取某个文件(/data/file.txt)。 那么我们在运行的时候是不是需要做如下的步骤:cd 到Java的目录下; 执行Java命令;但是,当我们需要同时使用多个工具的时候,比如又有java、maven、git等等,而且是多台机器的时候,我们通常需要很多繁琐的cd操作。而配置环境变量 就可以使我们可以

2021-12-01 19:11:21 8067 1

原创 lightgbm家族(阶段二)

一、知识结构泰勒公式 -----> 梯度下降&牛顿法 -----> GBDT -----> Xgboost ------> lighgbm

2021-10-27 09:49:21 14

原创 多模态文本分类(特征工程embedding)

一、训练TF-idf1、训练TF-IDF遇到的问题1.1、stop_word关键词警告信息如下:UserWarning: Your stop_words may be inconsistent with your preprocessing. Tokenizing the stop words generated tokens XXXXXXXX not in stop_words.原因:...

2021-09-06 22:39:03 146

原创 # scikit-learn 0.24.2 与 scikit-optimize 0.8.1 版本冲突: got an unexpected keyword argument ‘iid‘

目录一、问题描述二、原因三、解决一、问题描述scikit-learn == 0.24.2scikit-optimize == 0.8.1scikit-optimize官网# 运行一下代码from skopt import BayesSearchCVfrom sklearn.datasets import load_digitsfrom sklearn.svm import SVCfrom sklearn.model_selection import train_..

2021-09-03 13:40:58 3380

原创 MAC 安装 brew

文章:Mac安装brew的四种方法(指定能行)官网:Homebrew macOS(或 Linux)缺失的软件包的管理器

2021-09-02 20:50:17 146

原创 pytorch使用LSTM诗词生成demo

目录一、数据二、案例结构 2.1、数据分割获取train、val、test 类 2.2、数据预处理类【带target与没有target】 2.3、创建vocab类与创建embedding表类 2.4、Dataset、Dataloader 2.5、模型搭建 2.6、LOSS、优化器、学习率衰减器 2.7、Train & eval三、遇到的问题一、数据二、案例结构 2.1、数据分割获取train、val、test 类impor...

2021-09-01 19:04:01 150

原创 tensorflow中LSTM与GRU的一些细节

tf.nn.dynamic_rnn 详解:tf.nn.dynamic_rnn 详解

2021-08-24 17:37:55 20

原创 LSTM情感分析案例demo(pytorch)

一、词向量构建 1、使用gensim加载预训练词向量二、

2021-08-09 19:08:45 263

原创 从RNN到LSTM

一、为什么用RNN二、RNN结构、公式、缺点 2.1、RNN的两种图解 2.2、RNN公式推导 2.2.1、RNN计算公式 2.2.2、RNN梯度导链 2.3、RNN的问题与缺点1.RNN的两个结构图的画法2.RNN公式推导3.RNN导链公司4.RNN梯度消失与梯度爆炸的理解?怎么解决梯度消失与梯度爆炸?三、LSTM引入...

2021-08-02 19:34:21 53

原创 pytoch使用resnet50迁移demo

1、十、遇到的问题10.1、torchvision 中 models 经典模型的 pre_trained == true首次运行会下载预训练的模型参数很耗时,怎样离线下载预训练的模型参数?10.2、怎样冻结预训练模型的参数?10.3、怎样冻结预训练模型一部分参数?比如前8层的参数10.4、怎样删除预训练模型的一部分网络结构?10.5、怎样分层不同学习率训练模型?10.6、怎样仅仅训练部分模型的参数?比如仅仅训练FC层的参数...

2021-06-17 17:03:18 122

原创 经典CNN结构及网络设计策略

一、CNN网络与NLP CNN与NLP任务二、

2021-05-10 18:58:18 214

原创 pytorch从入门到放弃二(CNN分类MNIST数据)

一、

2021-05-10 18:55:10 15

原创 pytorch从入门到放弃一(pytorch基本使用)

一、

2021-05-10 18:54:16 51

原创 CNN与NLP任务

一、为什么CNN可以用到文本处理中 1、CNN网络善于处理的场景1、特征分布局部性2、局部特征具有可平移性,参数共享(如一个人的脸放在图片任意一个位置都是那张脸)3、特征具有收缩性(如图片分辨率的大小不会影响图片类别的判断) 2、CNN用于文本处理中的场景 2.1、CNN用于文本分类(尤其是长文本分类)1、分析一下文本分类场景的特点: ① 特征具有局部性(如:一段话的类别往往会集中在某几个高重要性的短语上) ② 特征具有平移性(如:同一个重要短语可以出现...

2021-04-14 21:23:33 31

原创 Pandas 常见错误警告

一、SettingWithCopyWarning 警告详情如下:SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: https://pandas.pydata.org/pandas-

2021-03-24 19:51:35 1470

原创 Screen ssh 远程会话

screen中,不能使用鼠标上下滚动查看历史输出。使用ssh连接服务器,经常断掉,且窗口不能关闭。screen是一个虚拟终端模拟器。

2021-03-23 16:48:26 183

原创 Ubuntu 16.04 利用Sakurafrp工具管理多节点多隧道ID 实现 ssh 内网穿透

一、

2021-03-23 16:46:47 2845 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除