小趴菜日记-CSDN博客

原创报错sh: nvcc: command not found

再次执行nvcc -V 就可以看到相应cuda版本了。

2024-11-07 00:41:01 640

原创 pytorch训练时候没有问题，预测时候内存迅速增长，爆掉，out of memory的解决办法

的主要作用是在指定的代码块中暂时禁用梯度计算，进行推理时，我们不需要计算梯度，只关心模型的输出。在预测的时候，加with。

2024-10-22 20:43:27 422 2

报错：ipykernel_launcher.py: error: unrecognized arguments: --f=/home/wangzhefan/.local/share/jupyter/runtime/kernel-v3a2f529781fa7bcb9c5881e4d67a2c58b59a3194f.json。在args = parser.parse_args()中添加args=[]，即。

2024-10-18 23:11:34 298

原创 git提交到github个人记录

1.进入git官网一直默认选项即可2.在settings中SSH and GPG keys中Add SSH key3.选择git cmd。

2024-10-14 19:41:42 487 1

原创报错Automatic merge failed； fix conflicts and then commit the result.

如果是重复代码，两个二选一删除一个，然后再把这些冲突标示符删除即可。报错原因：有两个同名文件但内容不同，git不知道合并后用哪个。如果不是重复代码，两个都需要保留，只把冲突符号删除即可。git status 找到冲突文件并打开。

2024-10-14 19:12:21 616

原创报错fatal: refusing to merge unrelated histories

git pull test2 main报错fatal: refusing to merge unrelated histories。解决办法：将远程仓库的master分支合并到当前分支，允许合并两个不相关的仓库历史。原因：远程仓库的master分支和当前分支不相关（unrelated）

2024-10-14 18:57:00 710

原创报错remote: No anonymous write access.fatal: Authentication failed for ‘https://github.com/xx/test.gi

git push -u test main报错。

2024-10-14 16:01:28 241

原创 hint: Updates were rejected because the remote contains work that you dohint: not have locally. Thi

报错原因：更新被拒绝，因为远程包含您本地没有的工作。解决办法：先拉取，再推送。

2024-10-14 15:38:15 207

原创 You have divergent branches and need to specify how to reconcile them.hint: You can do so by runnin

报错原因：pull的分支和现有的分支代码不一致。将pull下来的代码与现有的代码进行合并。

2024-10-14 15:09:04 269

原创报错：remote: GitLab: You are not allowed to force push code to a protected branch on this project.

报错：remote: GitLab: You are not allowed to force push code to a protected branch on this project.进入gitlab中的项目：设置（Settings）-> 仓库（Repository） -> 保护分支（Protected Branches）->（把保护的分支选择 unprotected）master分支被保护，所以无法强制推送。将master分支解除保护。

2024-10-12 14:53:16 2285

原创报错error: remote origin already exists.

git remote add origin 报错error: remote origin already exists.原因：之前连接过自己（或者别人的）远程仓库。解决办法：先删除远程git仓库。

2024-10-12 11:58:06 196

原创报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils

【代码】报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils。

2024-10-11 01:52:52 2266

原创报错ERROR: Exception in ASGI application

解决办法：更换一个gradio版本。

2024-10-11 01:39:12 8554 1

原创 pdb个人记录

import pdb;pdb.set_trace() 或者breakpoint()中断进入调试器,然后可以单步执行这条语句之后的代码。

2024-10-03 22:08:33 1056

原创指令个人记录

返回file_name中包括11111的文本行-E正则表达式匹配-v返回file_name中不包括11111的文本行搜索命令行历史记录中输入过git命令的记录-c统计文件或者文本中包含匹配字符串的行数-l查找匹配文本在哪些文件中，返回文件名-r 递归查找-i忽略匹配样式中的字符大小写使得grep在处理二进制文件时不进行匹配打印出匹配文本之前-A或者之后-B(之前&之后-C )的行：在grep搜索结果中包括或者排除指定文件-o只输出文件中匹配到的部分。

2024-09-24 19:44:24 1074

原创 agent学习个人记录

将一些带有标签的样本拼接起来，作为prompt的一部分。不涉及梯度更新，因此不属于ft。

2024-09-19 11:19:23 154

原创垂域LLM评测指标个人记录

解决办法：改为hf镜像网站。

2024-08-06 11:30:27 409

原创 llama-factory学习个人记录

1.llama-factory部署在LLaMA-Factory项目中，单显卡可以用命令或训练，多显卡只能用用命令的方式。

2024-05-22 14:21:06 4237 1

原创 vscode调试个人记录

点击运行和调试（或者按下F5。

2024-05-21 17:27:09 377

原创 json和jsonl文件格式个人记录

是一个流式处理 JSON 数据的 Python 库，它可以有效地处理大型 JSONL 文件。下面是一个示例代码，展示了如何使用 ijson 库来处理 JSONL 文件。

2024-05-21 14:48:08 557

原创 P-tuning个人记录

P-Tuning就是提示调优（Prompt Tuning），主要思想是固定预训练模型的参数，然后在模型的输入端添加可学习的"prompt"（提示）进行调整。这种方法的优点是计算成本低，因为只需要更新少量的参数。它不改变模型，而是通过对提示的优化，让模型输出最佳的结果。

2024-05-18 00:40:16 1459

原创报错CUDA Setup failed despite GPU being available

报错:

2024-05-17 18:44:17 1311

原创基于llama2_7B模型进行增量预训练

由于使用的底座模型是llama，官方公布的是PyTorch版本，为了方便后续使用，需转换为HuggingFace格式 .pth->.bin。

2024-05-17 17:19:00 1640

原创报错FileNotFoundError: [Errno 2] No such file or directory: ‘/home/bingxing2/ailab/scxlab0069/.local/l

报错:FileNotFoundError: [Errno 2] No such file or directory: '/home/bingxing2/ailab/scxlab0069/.local/lib/python3.9/site-packages/deepspeed/utils/zero_to_fp32.py'解决办法:降低deepspeed版本。

2024-05-17 17:17:54 310

原创报错AttributeError: ‘Textbox‘ object has no attribute ‘style‘

原因:安装的第三方库gradio版本太高，降低版本即可。当前安装的4.31.3版本降低到3.50.0。

2024-05-17 17:00:05 643

原创报错assert not torch.allclose(first_weight_old, first_weight)

原因:peft版本问题。

2024-05-17 16:06:40 305

原创报错RuntimeError: Error building extension ‘fused_adam‘或者undefined symbol: _ZNSt15__exception_ptr13exc

报错RuntimeError: Error building extension 'fused_adam'或者undefined symbol: _ZNSt15__exception_ptr13exception_ptr9_M_addrefEv。卸载已经安装的DeepSpeed,重新安装(也就是换一个新版本)

2024-05-17 02:41:44 1947

原创报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, op

报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, opb, m, n, k, &falpha, a, CUDA_R_16F, lda, b, CUDA_R_16F, ldb, &fbeta, c, CUDA_R_16F, ldc, CUDA_R_32F, CUBLAS_GEMM_DFALT_TENSOR_OP)`

2024-05-17 00:45:23 669

原创报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘

【代码】报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘

2024-05-17 00:21:47 1477

原创报错Downgrade the protobuf package to 3.20.x or lower.

报错:RuntimeError: Failed to import transformers.trainer_utils because of the following error (look up to see its traceback):解决办法:

2024-05-16 23:04:42 914

原创报错ImportError: libnccl.so.2: cannot open shared object file: No such file or directory

原因:没安装nccl库。

2024-05-16 22:41:13 1842

原创常用显卡算力对比

TFLOPS：指的是每秒钟可以执行的浮点运算次数，它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒（trillion floating point operations per second)。一般是指单精度性能FP32。TOPS：指的是每秒钟可以执行的整数运算次数，它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒（trillion operations per second）。一般是指整数运算能力。

2024-05-16 22:09:32 56318 1

原创报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘

【代码】报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘

2024-05-16 16:54:48 483

原创强化学习的优化策略PPO和DPO

DPO(直接偏好优化)简化了RLHF流程。它的工作原理是创建人类偏好对的数据集，每个偏好对都包含一个提示和两种可能的完成方式——一种是首选，一种是不受欢迎。然后对LLM进行微调，以最大限度地提高生成首选完成的可能性，并最大限度地减少生成不受欢迎的完成的可能性。与传统的微调方法相比，DPO 绕过了建模奖励函数这一步，设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高性能。(即不训练奖励模型，语言模型直接做偏好优化)

2024-05-15 23:31:26 3474

原创报错ImportError: cannot import name ‘TikTokenConverter‘ from ‘transformers.convert_slow_tokenizer‘

报错：ImportError: cannot import name 'TikTokenConverter' from 'transformers.convert_slow_tokenizer' (/home/bingxing2/ailab/scxlab0069/.conda/envs/test_llm/lib/python3.9/site-packages/transformers/convert_slow_tokenizer.py)解决办法：重新安装transformers。

2024-05-14 17:00:23 1119 1

原创报错：fatal: cannot create directory at ‘examples/fp4_finetuning‘: No space left on device

报错：fatal: cannot create directory at 'examples/fp4_finetuning': No space left on device。发现是/tmp目录存储满了清理一下，安装tmp清理工具,删除超过24小时未被访问的/tmp下的临时文件。看一下是哪个分区满了。

2024-05-14 16:36:46 204

原创报错ImportError: compilers/gcc/9.3.0/lib64/libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found (require

解决办法：换一个新一点的且与当前cuda版本对应的gcc。ps：因为cuda11.6最多支持gcc11。换成 cuda11.6 gcc11.3.0。原本：cuda11.6 gcc9.3.0。原因：gcc动态库版本过老。

2024-05-14 00:27:58 202

原创 pytorch cuda gcc对应版本记录

cuda与pytorchcuda与gcc

2024-05-14 00:16:10 1194

空空如也

空空如也