自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(112)
  • 收藏
  • 关注

原创 pytorch训练时候没有问题,预测时候内存迅速增长,爆掉,out of memory的解决办法

的主要作用是在指定的代码块中暂时禁用梯度计算,进行推理时,我们不需要计算梯度,只关心模型的输出。在预测的时候,加with。

2024-10-22 20:43:27 301

原创 jupyter argparse问题

报错:ipykernel_launcher.py: error: unrecognized arguments: --f=/home/wangzhefan/.local/share/jupyter/runtime/kernel-v3a2f529781fa7bcb9c5881e4d67a2c58b59a3194f.json。在args = parser.parse_args()中添加args=[],即。

2024-10-18 23:11:34 255

原创 git提交到github个人记录

1.进入git官网一直默认选项即可2.在settings中SSH and GPG keys中Add SSH key3.选择git cmd。

2024-10-14 19:41:42 419

原创 报错Automatic merge failed; fix conflicts and then commit the result.

如果是重复代码,两个二选一删除一个,然后再把这些冲突标示符删除即可。报错原因:有两个同名文件但内容不同,git不知道合并后用哪个。如果不是重复代码,两个都需要保留,只把冲突符号删除即可。git status 找到冲突文件并打开。

2024-10-14 19:12:21 504

原创 报错fatal: refusing to merge unrelated histories

git pull test2 main报错fatal: refusing to merge unrelated histories。解决办法:将远程仓库的master分支合并到当前分支,允许合并两个不相关的仓库历史。原因:远程仓库的master分支和当前分支不相关(unrelated)

2024-10-14 18:57:00 250

原创 报错remote: No anonymous write access.fatal: Authentication failed for ‘https://github.com/xx/test.gi

git push -u test main报错。

2024-10-14 16:01:28 122

原创 hint: Updates were rejected because the remote contains work that you dohint: not have locally. Thi

报错原因:更新被拒绝,因为远程包含您本地没有的工作。解决办法:先拉取,再推送。

2024-10-14 15:38:15 70

原创 You have divergent branches and need to specify how to reconcile them.hint: You can do so by runnin

报错原因:pull的分支和现有的分支代码不一致。将pull下来的代码与现有的代码进行合并。

2024-10-14 15:09:04 107

原创 报错:remote: GitLab: You are not allowed to force push code to a protected branch on this project.

报错:remote: GitLab: You are not allowed to force push code to a protected branch on this project.进入gitlab中的项目: 设置(Settings)-> 仓库(Repository) -> 保护分支(Protected Branches)->(把保护的分支选择 unprotected)master分支被保护,所以无法强制推送。将master分支解除保护。

2024-10-12 14:53:16 204

原创 报错error: remote origin already exists.

git remote add origin 报错error: remote origin already exists.原因:之前连接过自己(或者别人的)远程仓库。解决办法:先删除远程git仓库。

2024-10-12 11:58:06 91

原创 报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils

【代码】报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils。

2024-10-11 01:52:52 495

原创 报错ERROR: Exception in ASGI application

解决办法:更换一个gradio版本。

2024-10-11 01:39:12 618

原创 pdb个人记录

import pdb;pdb.set_trace() 或者breakpoint()中断进入调试器,然后可以单步执行这条语句之后的代码。

2024-10-03 22:08:33 1010

原创 指令个人记录

返回file_name中包括11111的文本行-E正则表达式匹配-v返回file_name中不包括11111的文本行搜索命令行历史记录中 输入过git命令的记录-c统计文件或者文本中包含匹配字符串的行数-l查找匹配文本在哪些文件中 ,返回文件名-r 递归查找-i忽略匹配样式中的字符大小写使得grep在处理二进制文件时不进行匹配打印出匹配文本之前-A或者之后-B(之前&之后-C )的行:在grep搜索结果中包括或者排除指定文件-o只输出文件中匹配到的部分。

2024-09-24 19:44:24 1037

原创 agent学习个人记录

将一些带有标签的样本拼接起来,作为prompt的一部分。不涉及梯度更新,因此不属于ft。

2024-09-19 11:19:23 118

原创 垂域LLM评测指标个人记录

解决办法:改为hf镜像网站。

2024-08-06 11:30:27 217

原创 llama-factory学习个人记录

1.llama-factory部署在LLaMA-Factory项目中,单显卡可以用命令或训练,多显卡只能用用命令的方式。

2024-05-22 14:21:06 2552

原创 vscode调试个人记录

点击运行和调试(或者按下F5。

2024-05-21 17:27:09 338

原创 json和jsonl文件格式个人记录

是一个流式处理 JSON 数据的 Python 库,它可以有效地处理大型 JSONL 文件。下面是一个示例代码,展示了如何使用 ijson 库来处理 JSONL 文件。

2024-05-21 14:48:08 461

原创 P-tuning个人记录

P-Tuning就是提示调优(Prompt Tuning),主要思想是固定预训练模型的参数,然后在模型的输入端添加可学习的"prompt"(提示)进行调整。这种方法的优点是计算成本低,因为只需要更新少量的参数。它不改变模型,而是通过对提示的优化,让模型输出最佳的结果。

2024-05-18 00:40:16 1249

原创 报错CUDA Setup failed despite GPU being available

报错:

2024-05-17 18:44:17 1097

原创 基于llama2_7B模型进行增量预训练

由于使用的底座模型是llama,官方公布的是PyTorch版本,为了方便后续使用,需转换为HuggingFace格式 .pth->.bin。

2024-05-17 17:19:00 1269

原创 报错FileNotFoundError: [Errno 2] No such file or directory: ‘/home/bingxing2/ailab/scxlab0069/.local/l

报错:FileNotFoundError: [Errno 2] No such file or directory: '/home/bingxing2/ailab/scxlab0069/.local/lib/python3.9/site-packages/deepspeed/utils/zero_to_fp32.py'解决办法:降低deepspeed版本。

2024-05-17 17:17:54 217

原创 报错AttributeError: ‘Textbox‘ object has no attribute ‘style‘

原因:安装的第三方库gradio版本太高,降低版本即可。当前安装的4.31.3版本 降低到3.50.0。

2024-05-17 17:00:05 452

原创 报错assert not torch.allclose(first_weight_old, first_weight)

原因:peft版本问题。

2024-05-17 16:06:40 251

原创 报错RuntimeError: Error building extension ‘fused_adam‘或者undefined symbol: _ZNSt15__exception_ptr13exc

报错RuntimeError: Error building extension 'fused_adam'或者undefined symbol: _ZNSt15__exception_ptr13exception_ptr9_M_addrefEv。卸载已经安装的DeepSpeed,重新安装(也就是换一个新版本)

2024-05-17 02:41:44 1027

原创 报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, op

报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, opb, m, n, k, &falpha, a, CUDA_R_16F, lda, b, CUDA_R_16F, ldb, &fbeta, c, CUDA_R_16F, ldc, CUDA_R_32F, CUBLAS_GEMM_DFALT_TENSOR_OP)`

2024-05-17 00:45:23 440

原创 报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘

【代码】报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘

2024-05-17 00:21:47 856

原创 报错Downgrade the protobuf package to 3.20.x or lower.

报错:RuntimeError: Failed to import transformers.trainer_utils because of the following error (look up to see its traceback):解决办法:

2024-05-16 23:04:42 769

原创 报错ImportError: libnccl.so.2: cannot open shared object file: No such file or directory

原因:没安装nccl库。

2024-05-16 22:41:13 1047

原创 常用显卡算力对比

TFLOPS:指的是每秒钟可以执行的浮点运算次数,它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒(trillion floating point operations per second)。一般是指单精度性能FP32。TOPS:指的是每秒钟可以执行的整数运算次数,它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒(trillion operations per second)。一般是指整数运算能力。

2024-05-16 22:09:32 10303

原创 报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘

【代码】报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘

2024-05-16 16:54:48 313

原创 强化学习的优化策略PPO和DPO

DPO(直接偏好优化)简化了RLHF流程。它的工作原理是创建人类偏好对的数据集,每个偏好对都包含一个提示和两种可能的完成方式——一种是首选,一种是不受欢迎。然后对LLM进行微调,以最大限度地提高生成首选完成的可能性,并最大限度地减少生成不受欢迎的完成的可能性。与传统的微调方法相比,DPO 绕过了建模奖励函数这一步,设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高性能。(即不训练奖励模型,语言模型直接做偏好优化)

2024-05-15 23:31:26 2705

原创 报错ImportError: cannot import name ‘TikTokenConverter‘ from ‘transformers.convert_slow_tokenizer‘

报错:ImportError: cannot import name 'TikTokenConverter' from 'transformers.convert_slow_tokenizer' (/home/bingxing2/ailab/scxlab0069/.conda/envs/test_llm/lib/python3.9/site-packages/transformers/convert_slow_tokenizer.py)解决办法:重新安装transformers。

2024-05-14 17:00:23 652 1

原创 报错:fatal: cannot create directory at ‘examples/fp4_finetuning‘: No space left on device

报错:fatal: cannot create directory at 'examples/fp4_finetuning': No space left on device。发现是/tmp目录存储满了 清理一下,安装tmp清理工具,删除超过24小时未被访问的/tmp下的临时文件。看一下是哪个分区满了。

2024-05-14 16:36:46 164

原创 报错ImportError: compilers/gcc/9.3.0/lib64/libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found (require

解决办法:换一个新一点的且与当前cuda版本对应的gcc。ps:因为cuda11.6最多支持gcc11。换成 cuda11.6 gcc11.3.0。原本:cuda11.6 gcc9.3.0。原因:gcc动态库版本过老。

2024-05-14 00:27:58 156

原创 pytorch cuda gcc对应版本记录

cuda与pytorchcuda与gcc

2024-05-14 00:16:10 747

原创 登录到计算节点看显卡是否正常

3.如果有显卡仍输出0可能是torch安装完后没有source里面的env.sh模块。1.ssh连接到计算节点。

2024-05-13 21:43:52 212 1

原创 In Context Learning(ICL)个人记录

In Context Learning(ICL)的关键思想是从类比中学习。上图给出了一个描述语言模型如何使用 ICL 进行决策的例子。首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入prompt,并将其输入到语言模型中进行预测。其中I表示任务。值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,。

2024-05-13 17:07:37 1076

原创 基于gpt2配置和架构训练base模型

2.编写训练脚本trainer.py。4.编写推理脚本chat.py。1.收集或制造数据集。

2024-05-12 19:34:49 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除