linux
心心喵
这个作者很懒,什么都没留下…
展开
-
[linux] data_parallel_size (2) is not divisible by expert_model_parallel_size
原因是 world_size=4,开了4卡。原创 2024-04-23 14:14:27 · 220 阅读 · 0 评论 -
[linux] 强制kill掉所有占用现存的进程
kill 掉所有的进程。原创 2024-04-11 22:01:11 · 130 阅读 · 0 评论 -
[linux] AttributeError: ‘Qwen2Tokenizer‘ object has no attribute ‘eod_id‘
qwen1.5是eos_token_id。qwen是eod_id。原创 2024-04-11 10:20:35 · 222 阅读 · 0 评论 -
[linux] assert num_datasets == len(weights)AssertionError
是哪个数据集没有正确读进来。需要重新tokenize。原创 2024-03-29 14:56:01 · 114 阅读 · 0 评论 -
[linux] git 远端创建新分支,在本地push代码到远端分支
本地需要重新git pull,因为要拉新建的分支到本地。本地git clone后查看远端分支。在gitlab上新建分支:略。这样就能看到远端的分支了。原创 2024-03-28 11:44:11 · 165 阅读 · 0 评论 -
[linux] AttributeError: module ‘transformer_engine‘ has no attribute ‘pytorch‘
其中这个答案并没有解决我的问题:import的flash_attn是xformers的包。。。cd到目录下 /mnt/nas/kexin/cv/Open-Sora/xformers/third_party/flash-attention/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so。原创 2024-03-27 11:08:30 · 627 阅读 · 0 评论 -
[linux] RuntimeError: Failed to import transformers.models.clipseg.modeling_clipseg because of the f
(在这里,找到了解决方案)原创 2024-03-25 14:04:35 · 312 阅读 · 0 评论 -
[linux] Key is stored in legacy trusted.gpg keyring
另一个选择是把 /etc/apt/trusted.gpg 文件复制到 /etc/apt/trusted.gpg.d 目录。毕竟,Ubuntu 只是抱怨说它需要 /etc/apt/trusted.gpg.d 目录下的 GPG 密钥。现在,如果你运行更新,你就不会再看到 “Key is stored in legacy trusted.gpg keyring” 的警告信息。如果你觉得手动做上面的事情不舒服,那么,你可以忽略这个警告信息。复制到trusted.gpd.d 目录中(快速但不优雅的方法)原创 2024-03-20 11:22:46 · 485 阅读 · 0 评论 -
[linux] undefined symbol: _ZN2at4_ops5zeros4callEN3c108ArrayRefINS2_6SymIntEEENS2_8optionalINS2_10Sc
【代码】[linux] undefined symbol: _ZN2at4_ops5zeros4callEN3c108ArrayRefINS2_6SymIntEEENS2_8optionalINS2_10Sc。原创 2024-03-18 23:38:22 · 536 阅读 · 0 评论 -
[linux] GFLOPS和TFLOPS的换算
GFLOPS (Giga Floating Point Operations Per Second) 是指每秒进行的十亿次浮点运算次数,而 TFLOPS (Tera Floating Point Operations Per Second) 则是每秒进行的万亿次浮点运算次数。这些单位通常用于衡量计算机或计算设备的性能,尤其是在进行大规模科学计算、深度学习训练等需要大量浮点运算的任务中。原创 2024-03-14 17:01:55 · 659 阅读 · 0 评论 -
[nlp] Token indices sequence length is longer than the specified maximum sequence length for this
【代码】[linux] Token indices sequence length is longer than the specified maximum sequence length for this。原创 2024-03-14 00:28:23 · 756 阅读 · 0 评论 -
[linux] 静态图和动态图
动态图(Dynamic Graphs)和静态图(Static Graphs)通常用来描述深度学习框架中模型的构建方式。原创 2024-03-13 18:36:24 · 340 阅读 · 0 评论 -
[linux]import cv2报错:AttributeError: module ‘cv2.dnn‘ has no attribute ‘DictValue’
要想明白可执行文件里面为什么没有使用动态库的文件名,就要说明动态库里面一个神奇的属性 SONAME,如果动态库设置了SONAME,那么在静态链接阶段会将 SONAME嵌入到可执行文件中,而不会使用真实文件名称,同时后面的动态链接器。在运行时也会使用这个SONAME来搜索库。,可执行文件里面怎么嵌入的是。找不到,编译链接的时候都是。原创 2024-03-12 19:22:25 · 763 阅读 · 0 评论 -
[linux] pip install -e . 和 pip install -e “.[train]“分别是什么意思
2. `pip install -e ".[train]"`:这个命令与 `pip install -e .` 类似,但添加了一个额外的“extras”选项 `train`。`pip install -e .` 和 `pip install -e ".[train]"` 都是 Python 包管理工具 `pip` 的安装命令,它们用于安装一个以“可编辑”模式的本地项目。`"[train]"` 表示要安装当前包的同时,也安装与 `train` 相关的额外依赖项。这通常用于开发过程中,原创 2024-03-12 11:48:31 · 527 阅读 · 0 评论 -
[linux] deepcopy报错 TypeError: cannot pickle ‘torch._C._distributed_c10d.ProcessGroup‘ object
【代码】[linux] deepcopy报错 TypeError: cannot pickle 'torch._C._distributed_c10d.ProcessGroup' object。原创 2024-03-07 22:16:33 · 417 阅读 · 0 评论 -
[linux] GPUS=${1:-4} 如果$1为空,则使用其后的默认值
这种写法通常用于允许用户在运行脚本时自定义某些参数值,如果未提供则使用默认值。的意思是:将GPUS设置为用户提供的第一个位置参数,如果未提供则默认为4,方便用户根据需要自定义GPU使用数量。2..如果没有提供位置参数,或者第一个参数为空,则GPUS会被设置为默认值4。)并且第一个参数不为空,则GPUS会被设置为该第一个参数的值(本例中为8)。是一个Bash shell中的参数扩展语法,用于设置环境变量GPUS的值。1..如果在运行脚本时提供了位置参数(如。为空或未设置,则使用其后的默认值。原创 2024-03-07 20:25:36 · 387 阅读 · 0 评论 -
[linux] matplotlib plt画training dynamics指标曲线时,标记每个点的值
plt画折线图时,plt.annotate标记折线图的点的数值。原创 2024-03-04 11:04:29 · 351 阅读 · 0 评论 -
[linux] tokens和G的换算
1B = 3G。原创 2024-02-28 15:56:54 · 360 阅读 · 0 评论 -
[linux] gitlab 服务器连接到ssh
【代码】[linux] gitlab 服务器连接到ssh。原创 2024-02-10 01:15:35 · 453 阅读 · 0 评论 -
[linux] git clone一个repo,包括它的子模块submodule
【代码】[linux] git clone一个repo,包括它的子模块submodule。原创 2024-01-12 20:44:59 · 530 阅读 · 0 评论 -
[linux]小语种在txt转jsonl的时候,输出的文本是unicode。
在print(json.dumps(d,txt转jsonl的时候,输出的文本是unicode。))的时候,一定要加。原创 2024-01-05 13:39:13 · 303 阅读 · 0 评论 -
[linux] from megatron import报错no moudle
sys.path.insert地址。原创 2024-01-04 14:23:09 · 408 阅读 · 0 评论 -
[linux] ossutil安装及环境配置
可以自定义config-file。其中ststoken可以直接回车忽略。原创 2023-12-15 15:11:31 · 286 阅读 · 0 评论 -
[linux] 解压缩xz
包,这是包含上述命令的必需软件包,在大多数Linux发行版中通常默认就已经安装。如果没有安装,可以使用。请根据你的具体情况选择合适的方法进行解压缩。如果遇到问题,请检查是否已经安装了。(对于Debian、Ubuntu等基于Debian的系统)或类似的命令来进行安装。: 如果你的.xz文件是一个归档文件(例如.tar.xz),你需要先用。解压缩为一个同名的未压缩文件。相同,只是用法略有不同。),那么这个扩展名会被保留。来提取归档文件中的所有文件。解压.xz部分,然后再用。格式的部分,然后使用。原创 2023-12-07 14:45:01 · 373 阅读 · 0 评论 -
[linux] 用命令行wget下载google drive的大文件
这样的信息,然后右键,选择复制cURL(bash)命令,这样你就复制了谷歌官方提供的下载命令了。2、单击要下载的文件,然后右键点击下载,这个时候会有提示框出现,继续点击。1、在网页上,按F12进入开发者模式,选择网络(network)。最后出现的一行,注意要由类似 download。原创 2023-12-07 13:56:10 · 1498 阅读 · 2 评论 -
[linux] git lfs install 安装lfs
如果报错,需要安装 apt-get。原创 2023-12-07 11:20:56 · 649 阅读 · 0 评论 -
[linux] 谷歌浏览器获取下载链接 用来wget
打开下载内容页面,右键检查,找到url。原创 2023-12-06 19:57:18 · 153 阅读 · 0 评论 -
[linux] kaggle 数据集用linux下载
接着,你需要在Kaggle网站上获取API Token。登录Kaggle网站,点击用户头像,选择"Account",在页面底部找到"Create New API Token",下载kaggle.json文件。首先,确保你已经安装了Python和Kaggle API。通过以上步骤,你可以在Linux中获取Kaggle的下载链接并进行下载。将kaggle.json文件移动到。获取到下载链接后,你可以使用。原创 2023-12-04 17:37:57 · 342 阅读 · 0 评论 -
[linux] 随机抽取某个目录./aa/中的10个jsonl文件,放在./bb中
【代码】[linux] 随机抽取某个目录./aa/中的10个jsonl文件,放在./bb中。原创 2023-11-24 15:17:51 · 42 阅读 · 0 评论 -
[nlp] ValueError: offset must be non-negative and no greater than buffer length (33590083584)
如果数据集没有损坏,则把 train-iters减小,或者把global-batch-size减小。如果使用了多线程或多进程加载数据集,请确保数据加载器的设置正确。可能需要调整工作线程/进程的数量或调整数据加载的顺序。如果问题持续存在,可能需要考虑使用更稳定的数据加载方法或库。可以尝试使用其他的数据加载库或框架,例如PyTorch的。该错误是由于在索引数据集时,发生了一个偏移量超出了缓冲区长度的错误。如果以上步骤都无法解决问题,可能需要进一步检查代码和数据集文件,并尝试使用调试工具来定位问题所在。原创 2023-11-21 14:18:51 · 171 阅读 · 0 评论 -
[linux] pretrain_gpt_dlc.py: error: unrecognized arguments: usage: pretrain_gpt_dlc.py
"\"后面或者""后面有空格,会导致这种报错。原创 2023-11-15 17:20:55 · 48 阅读 · 0 评论 -
[linux] 超长文本训练tokenizer报错 训练数据格式不正确
Traceback (most recent call last): File "/xxxtext_generation_train/preprocess/token_preprocess/train_tokenizer.py", line 170, in spm.SentencePieceTrainer.train( File "/usr/local/lib/python3.10/dist-packages/sentencepiece/__init__.py", line原创 2023-11-09 16:56:00 · 229 阅读 · 0 评论 -
[linux] tokenzie报错self.run() BrokenPipeError: [Errno 32] Broken pipe
机器延时问题换一个机器就好了。。。原创 2023-11-08 15:07:08 · 74 阅读 · 0 评论 -
[linux] ‘LlamaTokenizer‘ object has no attribute ‘sp_model‘
【代码】[linux]'LlamaTokenizer' object has no attribute 'sp_model'原创 2023-11-07 15:46:33 · 654 阅读 · 2 评论 -
[linux] shell中的()和{}
这种模式时,shell在variable中查找,看它是否一给的模式pattern结尾,如果是,就从命令行把variable中的内容去掉右边最短的匹配模式。这种模式时,shell在variable中查找,看它是否一给的模式pattern开始,如果是,就从命令行把variable中的内容去掉左边最短的匹配模式。这种模式时,shell在variable中查找,看它是否一给的模式pattern结尾,如果是,就从命令行把variable中的内容去掉右边最长的匹配模式。num1是位置,num2是长度。原创 2023-10-30 22:14:29 · 314 阅读 · 0 评论 -
[linux] megatron转换huggingface权重报错return super().find_class(mod_name, name) No module named megatron
【代码】[linux] megatron转换huggingface权重报错return super().find_class(mod_name, name) No module named megatron。原创 2023-10-30 16:41:19 · 494 阅读 · 0 评论 -
[linux] Syntax error: “(“ unexpected错误,sh报错
sh test.sh执行脚本的时候,报错:Syntax error: "(" unexpected错误。可以看到 执行sh的时候实际上是执行dash。而使用下面这种方式执行,则不会报错。执行的shell版本有关系。原创 2023-10-30 13:32:25 · 614 阅读 · 0 评论 -
[linux] ERROR: Could not find a version that satisfies the requirement matplotlib (from versions: no
网络问题,换个镜像源,或者等一会,反复重试。原创 2023-10-23 16:55:36 · 353 阅读 · 0 评论 -
[linux] 怎么批量kill掉挂载运行python 某个.py文件的端口
【代码】[linux] 怎么批量kill掉挂载运行python 某个.py文件的端口。原创 2023-10-23 10:27:51 · 233 阅读 · 0 评论 -
[linux] 把txt文本文件分成10个子文件,并保存。 linux命令
linux命令将文件分割成多个子文件。原创 2023-10-20 16:09:14 · 323 阅读 · 0 评论