大模型debug笔记
主要是记录大模型实践中遇到的bug
同屿Firmirin
中科院计算机专业研究生
展开
-
LLaVA微调debug:ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:
flash-attn版本问题,到官网上下载对应自己cuda和torch版本的whl文件,再安装,注意我一开始下了这种TRUE的版本,出现了以上错误,改下FALSE版本后解决。注意是那个TRUE和FALSE的问题!原创 2024-07-29 16:20:33 · 596 阅读 · 0 评论 -
MiniCPMV微调bug:ninja: build stopped: subcommand failed. CalledProcessError: Command ‘[‘ninja‘, ‘-v‘]
完整的报错信息非常之长,我一直在尝试解决后面的报错,忽略了ninja这个根本问题,浪费了两天时间,版本误我啊。为什么issue里没人说这个问题呢?最后会放下完整的报错,遇到诸如以下报错的也可以看看是不是前面有个ninja的报错。原创 2024-07-11 16:19:26 · 613 阅读 · 0 评论 -
【多模态大模型学习--模型训练踩坑】deepspeed.runtime.zero.utils.ZeRORuntimeException: The checkpoint being loaded use
错误的关键在于,Deepspeed的ZeRO优化器目前不支持自动调整优化器状态的分区(partitioning),以适应从加载的检查点到当前配置的世界大小变化。在分布式训练中,“世界大小”指的是参与训练的进程数量,这里特指数据并行的进程数。手动调整配置: 需要手动确保加载检查点时的训练配置与保存时完全一致,即调整当前的world size为2,以匹配检查点的设置。总之,该错误是因为加载的训练状态与当前的分布式训练设置不匹配导致的,解决方法需要用户手动调整配置或重新考虑训练策略。原创 2024-05-15 15:50:37 · 609 阅读 · 0 评论 -
重启hadoop后没有NameNode需格式化
重启hadoop后没有NameNode需格式化此前hadoop的各种配置基本都是照网上各种文章抄的,最近发现了hadoop每次重启都没有namenode,必须格式化namenode。这样会丢失hdfs里的数据,随着实验进行,数据越来越多不舍得删了。于是终于开始解决问题。这是因为默认的hadoop.tmp.fir 会在每次关闭后清空,所以要改成自己设定的目录。先关掉hadoop我是在hadoop目录下新建dfs路径,再在下面新建name和data路径。mkdir /usr/local/hadoop/原创 2021-07-20 09:30:09 · 1465 阅读 · 0 评论 -
【多模态大模型学习--llava部署踩坑:google.protobuf.message.DecodeError: Error parsing message】
大模型学习,安装flash-attn的踩坑过程原创 2024-04-25 10:30:21 · 1059 阅读 · 1 评论 -
关于HBase中的中文数据显示为十六进制码
关于HBase中的中文数据显示为十六进制码在使用hbase ImportTsv命令将含中文的tsv文件从hdfs上传到hbase后,出现以下所示现象,中文字符显示为十六进制码。在hhase shell中,直接使用如下命令:scan 'zhihu',{COLUMNS => 'text::toString'} 这里’zhihu’为表名,text: 为列名会以中文格式显示:注意:该tsv文件已经是utf-8格式...原创 2021-07-20 09:44:34 · 2045 阅读 · 1 评论 -
MiniCPM-V2.5大模型微调:cusparse.h: No such file or directory...libcudart.so.11.0: cannot open shared ob
使用MiniCPM-V2.5大模型微调遇到的cuda问题原创 2024-07-10 13:57:58 · 423 阅读 · 0 评论 -
LLaVA微调debug:binascii.Error: Invalid base64-encoded string: number of data characters (678697) canno
注意版本问题,选择适合自己的。原创 2024-07-29 16:22:56 · 330 阅读 · 0 评论 -
【多模态大模型学习--llava部署踩坑:conda虚拟环境flash-attn安装】RuntimeError: FlashAttention is only supported on CUDA11
flash-attn无法pip安装原创 2024-04-25 15:39:47 · 1632 阅读 · 0 评论