- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 在docker容器中使用Megatron-LM框架进行分布式训练踩坑与经验分享
由于分布式训练需要大量通信,所以docker网络模式建议设置为主机网络模式以保证通信效率:需要使用节点内所有的GPU,请设置启动参数--gpus all。
2024-11-07 15:44:30 201
原创 教程类:在超算互联网(SCNet)平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。
教程类:在超算互联网(SCNet)平台轻松玩转多模态大模型LLaVA的推理、预训练与微调。
2024-08-15 22:26:48 1640
原创 Docker部署hadoop,遇到datanode无法正常启动问题
通过查阅docker-compose.yaml文件,发现其中一个volume路径是./data/hadoopnode/data:/data:z。找到文件路径,例如:E:\MapReduceANDSpark\hadoop-sandbox\data\hadoopnode\data。Docker部署hadoop,遇到datanode无法正常启动问题。把此文件夹下的这两个文件删除,然后重启docker即可。
2024-06-05 02:38:52 288
原创 问题解决:pycharm远程debug无法显示python库文件
点击pycharm右下角的python interpreter选项,重新选择远程python解析器,这样就会自动进行库文件的同步了。网上有说法是路径映射没有设置好,但是这些方案并不起作用。同步以后,就可以正常地进入库文件进行debug了。摸索之后发现,原来是我在远程服务器上环境中。,导致文件加载不了。
2024-04-26 17:34:08 409 2
原创 OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file
【代码】OpenMPI报错ORTE_ERROR_LOG: Data unpack had inadequate space in file。
2024-04-19 21:00:23 372
原创 Java rmi踩坑总结
最近在做分布式计算作业的过程中,需要用到Java rmi实现RPC远程调用,踩了不少坑,来总结一下帮助大家避坑。打开一个终端,一定要cd到output目录下,再启动rmiregistry,就OK了再次运行服务端,发现没有报错,一切正常。。
2024-04-12 16:05:05 882
原创 关于Pytorch autograd机制反向传播计算梯度的几个tips
(不求平均,平均数因子早在之前的Divbackward已经算过了):举例,广播的bias(原尺寸1 X 10,广播后16 X 10 ,batch_size=16)反向传播计算出的梯度尺寸也是16 X 10,bias为AccumulateGrad类型,则把梯度的第一个维度,即16进行累加,最终得到真正的梯度即 尺寸为1 X 10的梯度(与bias尺寸相同)本文的所有tips都是在阅读pytorch源码,包括torch/csrc/autograd目录下的autograd部分的C++源码总结出来的。
2024-04-07 21:40:21 924 1
原创 以大语言模型ChatGLM2-6B为后台,打造个人语音交互机器人Demo
看到了这里,你一定是个热爱学习编程的极客,令人钦佩。让我们携手前行,探索更多的学习和创新,为共同的热爱努力,因为在知识的海洋里,我们永不止步,共同谱写着学习的精彩篇章。🚀💡。
2023-09-12 20:36:55 5326 2
原创 超算平台国产DCU服务器运行Pytorch报错libglog.so.0、torch.cuda.is_available() Aborted 的解决办法
报错的原因是系统没有找到正确的pytorch_lib路径,许多小伙伴的第一反映是重新下载一个lib,其实服务器内部已经为我们准备好了pytorch_lib,很齐全,我们只需配置好环境变量即可。出现以上错误的原因是没有切换到正确的rocm编译器版本,可以运行下面的命令进行切换。在在本地创建一个pytorch_env.sh的文件,添加环境变量!第一次在超算平台使用pytorch时遇到了两个报错。
2023-08-05 16:35:44 718 1
原创 初次调试MPI程序,调用Send&Recv函数报错的解决方案
原因是客户端的防火墙没有关,需要把所有节点的防火墙都进行关闭操作,方可保证各节点进行通信。切记,以上命令一定要在所有节点上都操作一遍!!!再次运行程序,就能够正常跑通了!
2023-07-22 15:40:05 511
原创 在VS环境运行CUDA kernel.cu示例程序出现MSB3721错误、C1083、E0029报错的解决方案
依次展开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Profilelist,在Profilelist下的文件夹对应系统中用户,而文件夹中ProfileImagePath值是指向每个用户文件夹的地址,一个个点击查看,找到用户名对应的ProfileImagePath值。出现此错误的原因是IDE的语法检查器无法识别CUDA的特殊语法,但并不影响编译器对源码的编译,因此可以忽略。,出现了乱码,C:\Users\?
2023-06-28 15:14:09 1941 3
空空如也
C语言一道统计输入的字符数题目,为什么我输出的结果是空白?
2021-10-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人