- 博客(112)
- 收藏
- 关注
原创 pytorch训练时候没有问题,预测时候内存迅速增长,爆掉,out of memory的解决办法
的主要作用是在指定的代码块中暂时禁用梯度计算,进行推理时,我们不需要计算梯度,只关心模型的输出。在预测的时候,加with。
2024-10-22 20:43:27 301
原创 jupyter argparse问题
报错:ipykernel_launcher.py: error: unrecognized arguments: --f=/home/wangzhefan/.local/share/jupyter/runtime/kernel-v3a2f529781fa7bcb9c5881e4d67a2c58b59a3194f.json。在args = parser.parse_args()中添加args=[],即。
2024-10-18 23:11:34 255
原创 git提交到github个人记录
1.进入git官网一直默认选项即可2.在settings中SSH and GPG keys中Add SSH key3.选择git cmd。
2024-10-14 19:41:42 419
原创 报错Automatic merge failed; fix conflicts and then commit the result.
如果是重复代码,两个二选一删除一个,然后再把这些冲突标示符删除即可。报错原因:有两个同名文件但内容不同,git不知道合并后用哪个。如果不是重复代码,两个都需要保留,只把冲突符号删除即可。git status 找到冲突文件并打开。
2024-10-14 19:12:21 504
原创 报错fatal: refusing to merge unrelated histories
git pull test2 main报错fatal: refusing to merge unrelated histories。解决办法:将远程仓库的master分支合并到当前分支,允许合并两个不相关的仓库历史。原因:远程仓库的master分支和当前分支不相关(unrelated)
2024-10-14 18:57:00 250
原创 报错remote: No anonymous write access.fatal: Authentication failed for ‘https://github.com/xx/test.gi
git push -u test main报错。
2024-10-14 16:01:28 122
原创 hint: Updates were rejected because the remote contains work that you dohint: not have locally. Thi
报错原因:更新被拒绝,因为远程包含您本地没有的工作。解决办法:先拉取,再推送。
2024-10-14 15:38:15 70
原创 You have divergent branches and need to specify how to reconcile them.hint: You can do so by runnin
报错原因:pull的分支和现有的分支代码不一致。将pull下来的代码与现有的代码进行合并。
2024-10-14 15:09:04 107
原创 报错:remote: GitLab: You are not allowed to force push code to a protected branch on this project.
报错:remote: GitLab: You are not allowed to force push code to a protected branch on this project.进入gitlab中的项目: 设置(Settings)-> 仓库(Repository) -> 保护分支(Protected Branches)->(把保护的分支选择 unprotected)master分支被保护,所以无法强制推送。将master分支解除保护。
2024-10-12 14:53:16 204
原创 报错error: remote origin already exists.
git remote add origin 报错error: remote origin already exists.原因:之前连接过自己(或者别人的)远程仓库。解决办法:先删除远程git仓库。
2024-10-12 11:58:06 91
原创 报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils
【代码】报错ImportError: cannot import name ‘StaticCache‘ from ‘transformers.cache_utils。
2024-10-11 01:52:52 495
原创 pdb个人记录
import pdb;pdb.set_trace() 或者breakpoint()中断进入调试器,然后可以单步执行这条语句之后的代码。
2024-10-03 22:08:33 1010
原创 指令个人记录
返回file_name中包括11111的文本行-E正则表达式匹配-v返回file_name中不包括11111的文本行搜索命令行历史记录中 输入过git命令的记录-c统计文件或者文本中包含匹配字符串的行数-l查找匹配文本在哪些文件中 ,返回文件名-r 递归查找-i忽略匹配样式中的字符大小写使得grep在处理二进制文件时不进行匹配打印出匹配文本之前-A或者之后-B(之前&之后-C )的行:在grep搜索结果中包括或者排除指定文件-o只输出文件中匹配到的部分。
2024-09-24 19:44:24 1037
原创 llama-factory学习个人记录
1.llama-factory部署在LLaMA-Factory项目中,单显卡可以用命令或训练,多显卡只能用用命令的方式。
2024-05-22 14:21:06 2552
原创 json和jsonl文件格式个人记录
是一个流式处理 JSON 数据的 Python 库,它可以有效地处理大型 JSONL 文件。下面是一个示例代码,展示了如何使用 ijson 库来处理 JSONL 文件。
2024-05-21 14:48:08 461
原创 P-tuning个人记录
P-Tuning就是提示调优(Prompt Tuning),主要思想是固定预训练模型的参数,然后在模型的输入端添加可学习的"prompt"(提示)进行调整。这种方法的优点是计算成本低,因为只需要更新少量的参数。它不改变模型,而是通过对提示的优化,让模型输出最佳的结果。
2024-05-18 00:40:16 1249
原创 基于llama2_7B模型进行增量预训练
由于使用的底座模型是llama,官方公布的是PyTorch版本,为了方便后续使用,需转换为HuggingFace格式 .pth->.bin。
2024-05-17 17:19:00 1269
原创 报错FileNotFoundError: [Errno 2] No such file or directory: ‘/home/bingxing2/ailab/scxlab0069/.local/l
报错:FileNotFoundError: [Errno 2] No such file or directory: '/home/bingxing2/ailab/scxlab0069/.local/lib/python3.9/site-packages/deepspeed/utils/zero_to_fp32.py'解决办法:降低deepspeed版本。
2024-05-17 17:17:54 217
原创 报错AttributeError: ‘Textbox‘ object has no attribute ‘style‘
原因:安装的第三方库gradio版本太高,降低版本即可。当前安装的4.31.3版本 降低到3.50.0。
2024-05-17 17:00:05 452
原创 报错RuntimeError: Error building extension ‘fused_adam‘或者undefined symbol: _ZNSt15__exception_ptr13exc
报错RuntimeError: Error building extension 'fused_adam'或者undefined symbol: _ZNSt15__exception_ptr13exception_ptr9_M_addrefEv。卸载已经安装的DeepSpeed,重新安装(也就是换一个新版本)
2024-05-17 02:41:44 1027
原创 报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, op
报错:RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasGemmEx( handle, opa, opb, m, n, k, &falpha, a, CUDA_R_16F, lda, b, CUDA_R_16F, ldb, &fbeta, c, CUDA_R_16F, ldc, CUDA_R_32F, CUBLAS_GEMM_DFALT_TENSOR_OP)`
2024-05-17 00:45:23 440
原创 报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘
【代码】报错importerror: cannot import name ‘llamaforcausallm‘ from ‘transformers‘
2024-05-17 00:21:47 856
原创 报错Downgrade the protobuf package to 3.20.x or lower.
报错:RuntimeError: Failed to import transformers.trainer_utils because of the following error (look up to see its traceback):解决办法:
2024-05-16 23:04:42 769
原创 报错ImportError: libnccl.so.2: cannot open shared object file: No such file or directory
原因:没安装nccl库。
2024-05-16 22:41:13 1047
原创 常用显卡算力对比
TFLOPS:指的是每秒钟可以执行的浮点运算次数,它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒(trillion floating point operations per second)。一般是指单精度性能FP32。TOPS:指的是每秒钟可以执行的整数运算次数,它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒(trillion operations per second)。一般是指整数运算能力。
2024-05-16 22:09:32 10303
原创 报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘
【代码】报错ImportError: cannot import name ‘import_path‘ from ‘_pytest.doctest‘
2024-05-16 16:54:48 313
原创 强化学习的优化策略PPO和DPO
DPO(直接偏好优化)简化了RLHF流程。它的工作原理是创建人类偏好对的数据集,每个偏好对都包含一个提示和两种可能的完成方式——一种是首选,一种是不受欢迎。然后对LLM进行微调,以最大限度地提高生成首选完成的可能性,并最大限度地减少生成不受欢迎的完成的可能性。与传统的微调方法相比,DPO 绕过了建模奖励函数这一步,设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高性能。(即不训练奖励模型,语言模型直接做偏好优化)
2024-05-15 23:31:26 2705
原创 报错ImportError: cannot import name ‘TikTokenConverter‘ from ‘transformers.convert_slow_tokenizer‘
报错:ImportError: cannot import name 'TikTokenConverter' from 'transformers.convert_slow_tokenizer' (/home/bingxing2/ailab/scxlab0069/.conda/envs/test_llm/lib/python3.9/site-packages/transformers/convert_slow_tokenizer.py)解决办法:重新安装transformers。
2024-05-14 17:00:23 652 1
原创 报错:fatal: cannot create directory at ‘examples/fp4_finetuning‘: No space left on device
报错:fatal: cannot create directory at 'examples/fp4_finetuning': No space left on device。发现是/tmp目录存储满了 清理一下,安装tmp清理工具,删除超过24小时未被访问的/tmp下的临时文件。看一下是哪个分区满了。
2024-05-14 16:36:46 164
原创 报错ImportError: compilers/gcc/9.3.0/lib64/libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found (require
解决办法:换一个新一点的且与当前cuda版本对应的gcc。ps:因为cuda11.6最多支持gcc11。换成 cuda11.6 gcc11.3.0。原本:cuda11.6 gcc9.3.0。原因:gcc动态库版本过老。
2024-05-14 00:27:58 156
原创 登录到计算节点看显卡是否正常
3.如果有显卡仍输出0可能是torch安装完后没有source里面的env.sh模块。1.ssh连接到计算节点。
2024-05-13 21:43:52 212 1
原创 In Context Learning(ICL)个人记录
In Context Learning(ICL)的关键思想是从类比中学习。上图给出了一个描述语言模型如何使用 ICL 进行决策的例子。首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入prompt,并将其输入到语言模型中进行预测。其中I表示任务。值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,。
2024-05-13 17:07:37 1076
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人