自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 资源 (1)
  • 收藏
  • 关注

原创 5. PyTorch+NCCL源码编译

从源码编译PyTorch和NCCL,可以实现对NCCL源码进行修改以适应特定需求,并应用于实际的分布式训练中,本文基于torch 2.2.1和nccl 2.19.3描述了一个大致过程,并验证了源码更改的有效性。

2024-06-27 17:07:22 1152

原创 3. 使用tcpdump抓取rdma数据包

使用 tcpdump 需要对源码进行编译,才可以抓取 RDMA 网卡数据包。本文通过使用tcpdump抓取mlx5网口的RoCE数据包,再使用wireshark进行简单分析

2024-06-05 23:50:22 1503 1

原创 2. 多机多卡运行nccl-tests对比分析

NCCL是深度学习训练中的一个关键组件,因为它能够有效地在多个GPU之间传输数据,这对于加速神经网络的训练非常重要。在现代的深度学习框架中,如TensorFlow、PyTorch和Keras,NCCL通常作为后端通信库,与框架的API紧密集成,为用户提供一个简单易用的编程接口。这里通过使用不同的网络配置,在双机进行了nccl-test测试,获得了不同的结果,并尝试进行简单分析。

2024-04-24 22:10:32 2345

原创 docker内实现多机多卡分布式训练

注意:这里使用overlay网络模式创建的docker重启后分配的ip是会变的,在实际多机多卡训练中需要每次看一下分配的ip再更改一下节点列表。在集群里创建一个my-attachable-overlay的虚拟网络 创建overlay 网络,名字任取。查看,对应Swarm的内容,以下显示10.112.57.233 已经作为非管理者的身份加入集群。在其他节点运行以上蓝色框内的命令以作为worker 节点加入该集群。使用创建的overlay 网络建立容器,启动容器时使用创建的网络。加入后可以在管理节点上运行。

2024-04-23 22:48:17 865

原创 misc/ibvwrap.cc:278 NCCL WARN Call to ibv_reg_mr_iova2 failed with error Cannot allocate memory

使用nccl后端及mellanox网卡使用RoCE进行分布式训练时,出现错误,添加环境变量。这里只有8192 ,单位KB,即8MB,显然是不够的,但是在当前用户无法运行。进入root是可以的,但是也要在root用户中输入命令才可以使用IB运行。重启后还是相同的错误,通过在github提问得知,可以先检查。命令,加sudo的话 提示找不到命令。参考nccl用户手册中的解决方法,

2024-04-18 21:44:57 425 1

原创 1. 多机多卡运行nccl-tests和channel获取

nccl中channel的概念表示一个通信路径,为了更好的利用带宽和网卡,以及同一块数据可以通过多个channel并发通信,nccl会使用多channel,搜索的过程就是搜索出来一组channel。这里-b表示minBytes,-e表示maxBytes,-g表示两张卡,-f表示数据量每次乘2,如开始是8B,往后依次是16,32,64字节…运行以下命令,这里对应双机4卡,注意np后面的进程数*单个节点gpu数(-g 指定)=总的gpu数量,即之前提到的等式。- Connolly的回答 - 知乎。

2024-02-12 18:45:54 4943

原创 Docker内 Pytorch+NCCL源码编译

PyTorch 是一个开源的深度学习框架,而 NCCL是 NVIDIA 提供的用于高性能 GPU 群集通信的库。通过编译 PyTorch 和 NCCL 的源代码,可以自定义构建并优化 PyTorch 在 GPU 群集上的性能。首先,需要安装构建 PyTorch 和 NCCL 所需的依赖项,例如 CUDA、cuDNN、Python 和其他相关的开发库。这些依赖项可能因操作系统和硬件配置而有所不同。克隆 PyTorch 源代码,进入 PyTorch 源代码目录,指定编译时的特定选项,例如支持的硬件架构

2024-02-07 22:28:25 2507

原创 ssh连接失败,提示ssh: connect to host port 22: Connection refused

ssh连接失败,连接显示器输入sudo netstat -tuln | grep 22命令查看占用22端口的服务,无任何输出,说明也不是默认端口22被占用的问题。ssh服务无法启动

2023-10-27 12:51:34 8805 1

原创 安装Ubuntu Server提示no working init found. Try passing init =option to kernel

安装Ubuntu Server提示:no working init found。try passing init =option to kernel。see Linux documentation/admin-guide/init.rst for guidance.

2023-09-22 11:45:07 3061 1

原创 ubuntu 22.04 服务器网卡无IP地址

ssh连接服务器连接不上,提示如下;连接显示器命令查看IP地址,有网卡但没有IP地址。

2023-09-21 18:44:16 2197

原创 如何安装Ubuntu Server 22.04 LTS

如您所见,安装程序已经在 40 GB 硬盘上创建了两个分区( /& / boot)我们拥有大约 19 GB 的空间,可以根据要求使用它们创建分区。当系统从USB启动后,我们将得到如下画面,选择 “Try or Install Ubuntu Server” 并按回车键。在此步骤中,如果您的系统连接到调制解调器或交换机,那么它将尝试通过 DHCP 获取 IP 地址。当系统重新启动后,我们将看到以下登录屏幕,使用我们之前设置用户名和密码登录。稍后,我们将使用该用户登录到系统,该用户默认拥有 sudo 权限。

2023-09-13 15:58:11 4579

原创 MacOS zsh: command not found

最新系统的macbook把zsh作为默认shell,而环境变量添加到了bash中,把 .zshrc里添加一句source ~/.bash_profile就可以啦。

2023-03-04 18:12:07 459 1

原创 用pip安装时遇到traceback(most recent call last)错误以及error: The read operation timed out解决方法

更新pip时遇到traceback(most recent call last)错误以及error: The read operation timed out解决方法

2023-01-08 02:28:32 933

原创 Mac彻底删除Python

3.删除/usr/local/bin目录下的Python连接。1.删除python框架。2.删除Python程序。

2023-01-08 02:03:46 3669 3

转载 urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed报错

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed报错。

2023-01-08 01:56:43 2105

原创 删除单链表中绝对值相同的节点

因为|data|≤n,故辅助数组a的大小为n+ 1,各元素的初值均为0。依次扫描链表中的各结点,同时检查a[|data]的值,如果为0,则保留该结点,并令a[|data|] = 1;否则,将该结点从链表中删除。算法的核心思想是用空间换时间。使用辅助数组记录链表中己出现的数值,从而只需对链表进行一趟扫描。时间复杂度为O(m),空间复杂度为O(n)

2022-11-25 19:29:35 814

原创 以太网交换机的两种转发方式

它在输入端口检测到一个数据帧时,检查帧的首部,获取该帧的目的Mac地址(占6B),启动内部的动态查找表转换成相应的输出端口,在输入与输出交叉处接通,把数据包直通到相应的端口,实现交换功能,而不必把整个顿先缓存后再进行处理。可以推出:只要接收完以太网帧的目的MAC地址就可以将帧直接转发到目的端口,而不缓存帧也不检验帧.引入的最小转发时延就是接收完目的MAC地址(6B)所耗费的时间。,有效地改善网络性能。尤其重要的是它可以支持不同速度的端口间的转换,保持高速端口与低速端口间的协同工作。

2022-09-11 13:31:25 6073 1

原创 数据库系统概论第五章课后习题(部分)

数据库系统概论(第5版) 王珊 萨师煊 第5章课后习题第5章 数据库完整性 2 .数据库的完整性概念与数据库的安全性概念有什么区别和联系?数据的完整性和安全性是两个不同的概念,但是有一定的联系。前者是为了防止数据库中存在不符合语义的数据,防止错误信息的输入和输出,即所谓垃圾进垃圾出( Garbage In Garbage out )所造成的无效操作和错误结果。后者是保护数据库防止恶意的破坏和非法的存取。也就是说,安全性措施的防范对象是非法用户和非法操作,完整性措施的防范对象是不合语义的数...

2022-07-02 17:23:56 642

原创 数据库系统概论第六章课后习题(部分)

数据库系统概论(第5版) 王珊 萨师煊 第6章课后习题 第6章 关系数据库理论

2022-07-02 17:16:14 683

原创 数据库系统概论第七章课后习题(部分)

数据库系统概论(第5版) 王珊 萨师煊 第7章课后习题第7章 数据库设计1.试述数据库设计过程。

2022-07-02 17:08:41 2335

原创 Ubuntu编写C程序并预处理、编译、汇编、链接

机器环境:VMWare虚拟机,Ubuntu18.04安装gcc编译器,终端输入命令,该命令将安装一堆新包,包括gcc,g ++和make。要验证GCC编译器是否已成功安装,可以使用gcc --version命令查看版本.右键单击想要保存.c文件的文件夹,从终端打开输入gedit test.c ,创建一个.c文件,在里面编写c代码,写完后点击右上角save再关闭即可输入命令 进行预处理 编译,转换为汇编语言程序 对生成的汇编语言程序进行汇编,生成机器语言程序-2进制代码对多个机器语言程序和库函数进行链接

2022-07-02 10:00:01 681

原创 数据库系统概论第十一章课后习题(部分)

数据库系统概论(第5版) 王珊 萨师煊 第11章课后习题2.并发操作可能会产生哪几类数据不一致?用什么方法能避免各种不一致的情况?丢失修改(Lost Update)不可重复读(Non-repeatable Read)读“脏”数据(Dirty Read),即:不正确的数据解决方法:并发控制机制,主要技术有封锁,时间戳,乐观控制法和多版本并发控制等3.什么是封锁?基本的封锁类......

2022-05-22 15:39:41 3940 1

原创 数据库系统概论第十章课后习题(部分)

1、试述事务的概念及事务的四个特性,恢复技术能保证事务那些特性?答:事务是指用户定义的数据库操作,其具有原子性(事务要么做完,要么不做)、一致性(事务要么处于做前、要么做后的状态)、隔离性(事务之间隔离不打扰)、持续性事务对数据库中数据改变是永久的)。恢复技术可以保证事务的原子性和一致性,3、登记日志文件为什么要先写文件、后写入数据库?答:如果先写如数据库,再写日志文件,在这两者操作之间发生了故障,则无法恢复这个修改。反之在按日志文件恢复时只是执行了一次不必要的UNDO操作,不会影响数据库的正确

2022-05-14 21:09:06 5123 1

原创 Mac上MySQL忘记密码怎么办

在Mac想使用MySQL时,输入mysql -u root -p提示要输入密码,可是好久不用已经忘记了,试了5,6个都不对,于是查找资料后把修改MySQL的密码过程记录如下:1.先关闭MySQL服务打开系统偏好设置,点击MySQL,选择“Stop MySQL Server”选项停掉服务。2.再打开终端依次执行如下命令:# 第一步,进入mysql的bin目录cd /usr/local/mysql/bin/# 第二步,使用root账户(要输入电脑密码)sudo su# 第三步./

2022-04-14 21:32:50 2450

原创 Mac如何有线上网

mac连接有线以太网,打开网络设置,发现没有如下的usb以太网选项(下面是安装好的显示):因此要去下载usb网口驱动,首先查询本机usb芯片类型3.然后下载usb转网口驱动,打开https://www.lulian.cn/download/list-238-cn.htmlhttp://www.lulian.cn/download/list-34-cn.html,第二步发现我的芯片是AX88772,所以就选择如下两个之一:安装完提示重启,完成后打开网络设置,发现已经有了以太网选..

2022-04-02 15:51:24 16485 3

原创 移动硬盘或其他USB设备如何连接到虚拟机

移动硬盘连接到VMware虚拟机(Mac)在macOS 下,我的Windows系统安装在VMware中,那么如何将移动硬盘或其他USB设备连接到虚拟机呢?1.如果此时虚拟机正在运行——我们插入移动硬盘,会出现如下弹窗直接选择连接到Windows即可2.如果已经将硬盘插入(就是已经连接到Mac系统上的),再打开虚拟机——这时在Windows里面是没有移动硬盘的,我们只需点击虚拟机->设置->USB和蓝牙,将对应的硬盘勾选上即可然后就可以在Windows里找到啦!...

2022-03-23 00:26:28 9256

原创 EFI Network…

在VMware虚拟机上安装Windows时提示EFI Network的问题(Mac系统)在VMware上创建Windows10虚拟机,安装镜像为ISO格式,启动后报错,显示EFI Network…,如图所示解决方法:将默认的UEFI格式设置为BIOS格式,更换固件类型即可。这里需要先关闭虚拟机,然后点击左上方虚拟机->设置->高级将固件类型改为BIOS即可,然后就可以正常安装了。另一种解决方法右键单击应用图标,打开虚拟机资源库,将对应的虚拟机删除后重装,固件类型选择BIOS

2022-03-22 13:59:08 8236

原创 斐波那契数列的几种求解方式及复杂度分析

斐波那契数列:f(n)=f(n-1)+f(n-2); n>=2f(0)=0; f(1)=1;即有名的兔子繁衍问题。现在我们去面试,面试官要求我们写出求解斐波那契数列指定项的函数,可能乍一听很简单,我们在大一的c语言课上就学过递归求解斐波那契数列的指定项,于是大笔一挥,写下如下的第一种解法:一、递归求解int fibonacci(int n){ if (n<=0) { return 0; } if (n==1) { ret

2022-01-20 17:19:47 3556 1

原创 HNU人工智能导论作业1

人工智能导论清览第1次作业1.考虑一个实时的在线电话翻译系统,该系统实现英语与日语之间的实时在线翻译,讨论该系统的性能度量,环境,执行器,感知器,并对该环境的属性进行分析。Answer:性能度量:翻译的正确率环境:电话线路传感器:麦克风执行器:音响环境属性:完全可观察的,单agent,确定的(无噪音条件下),片段的,静态的,离散的。2.考虑一个医疗诊断系统的Agent,讨论该Agent最合适的种类(简单Agent,基于模型的Agent,基于目标的Agent和基于效用的Agent)并.

2022-01-17 22:08:06 1215

原创 HNU人工智能导论作业2

人工智能导论清览第2次作业1 . 请用真值表的方法证明下列语句是有效的,可满足的,还是不可满足的?2.考虑下列的一阶逻辑表达式:其中x,y,z,w,s,t是变量,a,b,c是常数。a)讲1,2,3式子转换为CNF形式b)从上述知识库(KB)中使用归结算法证明结论equal(c,a)Answer:3 .把下列表达式转换为CNF形式Answer:4.考虑从一副标准的52张纸牌(不含大小王)中分发每手5张牌的扑克牌域。假设发牌人是公平的。a)在联合概率分布中共有多少个原子事件(即.

2022-01-17 21:20:49 1679

原创 HNU人工智能导论作业3

人工智能导论清览第3次作业1 . 贝叶斯网络根据图所给出的贝叶斯网络,其中:P(A)=0.5,P(B|A)=1, P(B|¬A)=0.5, P(C|A)=1, P(C|¬A)=0.5,P(D|BC)=1,P(D|B, ¬C)=0.5,P(D|¬B,C)=0.5,P(D|¬B, ¬C)=0。试计算下列概率P(A|D)。Answer:2.概率推理设有如下推理规则 r1: IF E1 THEN (2, 0.00001) H1 r2: IF E2 THEN (100, 0.0001).

2022-01-17 18:06:54 3756

原创 使用回溯搜索算法解决八皇后问题

EduCoder平台:人工智能导论第6章-约束满足问题第1关:使用回溯搜索算法解决八皇后问题回溯搜索算法:搜索与回溯是计算机解题中常用的算法,很多问题无法根据某种确定的计算法则来求解,可以利用搜索与回溯的技术求解。回溯是搜索算法中的一种控制策略。基本思想是:为了求得问题的解,先选择某一种可能情况向前探索,在探索过程中,一旦发现原来的选择是错误的,就退回一步重新选择,继续向前探索,如此反复进行,直至得到解或证明无解。编程要求:在右侧编辑器中完成void searchh(int i)函数,求出八皇

2022-01-17 16:46:55 723

原创 利用遗传算法求解 TSP(旅行商)问题

EduCoder平台:人工智能导论第4章-超越经典的搜索第1关:利用遗传算法求解 TSP(旅行商)问题遗传算法:一个后继状态由两个父状态决定,以k个随机产生的状态开始(population),一个状态表示成一个字符串。定义一个健康度量函数用来评价状态的好坏程度,通过选择,交叉,突变的操作产生下一轮状态。TSP问题:旅行商问题,即 TSP 问题(Traveling Salesman Problem)又译为旅行推销员问题、货郎担问题,是数学领域中著名问题之一。假设有一个旅行商人要拜访n个城市,他

2022-01-17 16:38:24 1121

原创 使用搜索算法求解罗马尼亚问题

EduCoder:人工智能导论第3章-通过搜索问题进行求解第1关:使用搜索算法实现罗马尼亚问题的求解A*搜索算法介绍:A*算法常用于 二维地图路径规划,算法所采用的启发式搜索可以利用实际问题所具备的启发式信息来指导搜索,从而减少搜索范围,控制搜索规模,降低实际问题的复杂度。算法原理:A*算法的原理是设计一个代价估计函数:其中 **评估函数F(n)**是从起始节点通过节点n的到达目标节点的最小代价路径的估计值,函数G(n)是从起始节点到n节点的已走过路径的实际代价,函数H(n)是从n节点到目标

2022-01-17 16:28:31 938

原创 人工智能之AlphaBeta剪枝算法

EduCoder平台:人工智能导论第5章-对抗搜索第1关:AlphaBeta剪枝算法求解博弈树最优选择编程要求:本关的编程任务是补全右侧代码片段 buildTree 、minmax_with_alphabeta 、max_value 、min_value 、get_value 和 isTerminal 中 Begin 至 End 中间的代码,具体要求如下:在 buildTree 中,以递归的方式创建一棵博弈树,初始传入参数为博弈树的根结点 root ,以及解析后的列表与元组的组合数据 data_

2021-12-28 13:18:26 1583

原创 人脸识别系统——OpenCV人脸检测

EduCoder平台:人脸识别系统——OpenCV人脸检测第1关:图片基本操作编程要求:请在右侧编辑器中的BEGIN-END之间编写代码,完成如下要求:导入openCV库(cv2);读取路径 step1/image/girl.jpg下的图片(图片读取模式三种任选一种都可以);将读取到的图片保存到路径 step1/out/girl-new.jpg下。代码如下:'''****************BEGIN****************'''# 导入OpenCV库impo

2021-12-26 18:12:08 5807

原创 人工智能之决策树算法

EduCoder平台:人工智能之决策树算法本关的编程任务是补全右侧代码片段 build、predict、parse_data、calc_all_gain、calc_attr_gain、calc_bool_gain、get_targ 和 is_leaf 中 Begin 至 End 中间的代码,具体要求如下:在build中,创建一棵决策树,输入参数为根结点;在predict中,根据归纳好的决策树预测输入样例x的谓词 WillWait 状态(Yes 或者 No);在_parse_data_中,

2021-12-26 02:16:39 3357 2

原创 人工智能-深度学习初体验

EduCoder平台:深度学习初体验第1关:什么是神经网络第2关:反向传播第3关:动手实现CNN识别手写数字编程要求:填写 python 代码,在 Begin-End 段中构建出如下结构的卷积神经网络:64 个 5*5 的卷积核组成的卷积层,激活函数为 relu;最大池化层,池化核大小为 2*2;扁平;128 个神经元的全连接层,激活函数为 relu;10 个神经元的全连接层,激活函数为 softmax。测试说明:只需按要求构建模型即可,程序内部会使用你所构建的模型进行训练与

2021-12-24 15:03:49 5560 8

原创 人工智能-深度学习工具及实践

EduCoder平台:深度学习工具及实践第1关:TensorFlow简介第2关:TensorFlow基本编程模型编程要求:根据提示,实现矩阵相乘方法。其中:data:待喂入的数据w:常量:tf.constant([[5.,3.],[4.,2. ]])测试说明:程序会调用你实现的方法对数据进行计算,如:输入: [[1,1],[2,2]]输出:[[ 9. 5.] [18. 10.]]输入: [[1,1]]输出: [[9. 5.]]

2021-12-24 14:32:31 2830

原创 人脸识别系统——Dlib人脸检测

EduCoder平台:人脸识别系统——Dlib人脸检测第1关:HOG特征描述方法编程要求:请在右侧编辑器中的BEGIN-END之间编写代码,完成如下要求:声明OpenCV中的HOG特征描述方法;调用该方法计算指定图片的HOG特征。代码如下:import cv2import numpy as np'''****************BEGIN****************'''img = cv2.imread("step1/image/girl1.jpg")

2021-12-23 20:34:50 3374

商业智能(BI)在智能制造中的应用-从业界调研到企业的具体需求案例

商业智能(BI)在智能制造中的应用-从业界调研到企业的具体需求案例

2024-07-07

macOS外置网卡驱动AX88179

macOS外置网卡驱动AX88179

2022-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除