ModuleNotFoundError: No module named ‘distutils.command.register‘ No module named 'distutils.command.register'
服务器重启后 ImportError: libffi.so.7: cannot open shared object file: No such file or directory 发现so文件版本不一样。
LLM预测训练集数据重复、长度超出label 遇到一个场景, 拿几条数据用LORA微调了LLM, 根据Loss看已经接近了0, 但是拿训练集里的数据预测时 ,不管怎么调节generate的参数, 预测结果总是不对, 有整段话重复生成的结果, 有不重复生成, 但是生成的结果超出了label的长度。经过排查, 原因是训练集构造的时候, 句子的结束符被attention mask掉了, 故模型在计算损失的时候, 虽然Loss为0, 但是这个loss是只计算了attention mask部分的Loss, 下述为错误代码。
Deepspeed 环境参数分享 1. 使用conda安装的cuda和cudnn虽然可以跑一般的训练, 但是使用deepspeed框架时还是会报一些奇怪的错误, 比如:Error building extension 'cpu_adam',Deepspeed环境对torch, CUDA和CUDNN比较敏感, 如果不匹配会遇到很多奇怪问题, 下边分享一个经过验证的环境。链接: https://pan.baidu.com/s/1TbwfNNUKd1l0AMsM-XGiVA 提取码: aw5e。
AttributeError: module ‘torchtext‘ has no attribute ‘legacy‘ 【代码】AttributeError: module ‘torchtext‘ has no attribute ‘legacy‘
ValueError: The length of the pixel data in the dataset doesn’t match the expected length 已解决 读取文件报错时,百度别人说加上这句就好, 确实当时解决了问题, 但后续没想到会导致别的问题, 这句意思是在。这个属性的时候, 给赋默认值, 这个属性标识。去读取数据, 关于该属性的值对应的意思详见。, 那么使用如下代码判断文件是否被压缩。这行错误的问题, 以前使用。是否被压缩, 应该使用什么。
medpy AttributeError: module ‘numpy‘ has no attribute ‘bool‘. 使用medpy计算HD距离时, 报错AttributeError: module 'numpy' has no attribute 'bool'.
Could not load dynamic library ‘libcudnn.so.7‘; Could not load dynamic library 'libcudnn.so.7';cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64
nnDetection框架Mirror解析 框架源码中Mirror部分进行详细解析,其余部分详细解析请看博主其他文章内容,基本上每个用到的方法都进行了单独解析,请使用ctrl + f 搜索查看。进行同步镜像操作, 如下部分详细分析了镜像流程,作者利用矩阵乘法的形式快速将所有points进行镜像的思路很优雅,值得学习。进行镜像操作以及将预测。