- 博客(134)
- 收藏
- 关注
原创 服务器安装系统,配置环境相关资料整理
1.安装系统2.apt-get update不成功3.cuda卸载与安装4.新建用户及修改密码5.为用户配置docker权限6.ubuntu使用命令小记7.linux下使用tree命令以树形结构显示文件目录结构8.xshell配置9.在服务器上使用screen10.docker基本使用教程11.docker常用命令小记12.给运行中的容器修改共享内存13.docker容器和镜像的导入与导出14.停掉docker容器中运行的进程15.dock..
2021-07-17 17:07:52 198
转载 Fastchat负载均衡策略(二)
负载均衡指的是将用户请求分摊到不同的服务器(worker)上处理,以提高系统整体的并发处理能力以及可靠性。负载均衡的示意图如图 1 所示:常见的负载均衡算法(参考自《负载均衡原理及算法详解随机法:随机分配一台服务器。如果没有配置权重的话,所有的服务器被访问到的概率都是相同的。如果配置权重的话,权重越高的服务器被访问的概率就越大。轮询法:挨个轮询服务器处理两次随机法:随机选择两台服务器,并根据着两台服务器的负载情况选择其中一台。
2024-05-28 11:37:29 144
转载 FastChat部署服务架构(一)
FastChat 部署服务的代码位于它们的关系如下图所示:图 1:https://github.com/lm-sys/FastChat/blob/main/docs/server_arch.md2. Server 向 Controller 发送请求,目的是获取处理 model 的 Worker 地址3. Controller 根据负载均衡策略分配 Worker4. Server 向 Worker 发送请求5. Worker 处理请求并将结果返回给 Server。
2024-05-27 16:28:05 486
原创 几种流行的并行方法了解
虽然相比于1D Tensor并行,2D额外增加了模型权重的通信,但是需要注意的是当GPU数量很多的时候,每个GPU上分配的模型权重就会小很多,而且因为使用的All-reduce通信方式,所以2D也还是要比1D更高效的。假设有 N𝑁个 GPU,tensor维度大小为[P,Q,K][𝑃,𝑄,𝐾],那么每个chunk的大小即为 [P/3√N,Q/3√N,K/3√N][𝑃/𝑁3,𝑄/𝑁3,𝐾/𝑁3]。随着模型大小不断增大,单个GPU的内存已经无法容纳现如今的大模型,所以便有了后面会介绍的模型并行。
2024-05-27 16:05:53 1161
原创 vscode单步调试如何深入底层代码
在对pytorch代码单步调试的时候发现进不到torch.nn的库代码中,经过查阅,发现是自己的配置文件有问题,毕竟vscode还是非常强大的。要让VSCode在调试中跳转至底层代码,只需要在launch.json中设置一个参数即可。
2023-10-25 16:40:26 345
原创 torch训练gpu利用率不高
GPU的显存占用和算力利用直接影响模型的训练速度。mmdetection中yolov3的数据预处理。显存一直占用,但是显卡使用率大多数情况为0。2.打开pin_memory。3.数据预处理占用比较久。这部分注释掉会比较快。
2023-10-12 17:36:31 737
原创 ubuntu mmdetection配置
mmdetection配置最重要的是版本匹配,特别是cuda,torch与mmcv-full本项目以mmdetection v2.28.2为例介绍。
2023-10-12 17:16:19 535
原创 linux后台运行程序命令screen
我们在服务器终端或者是使用的时候,需要长期后台运行项目,但是我们一关终端可能程序进程就会被kill掉了,我们之前学习过2>&1 &后台部署的命令,但是这样我们查看项目进程的时候还需要去查询运行的PID,如果我们不想麻烦,那么我们就可以使用screen工具。
2023-08-09 17:06:28 518
原创 ubuntu 命令端设置代理
注意,有时候anaconda可能会出现域名不可解析,或者连不上代理等情况,这时需要sudo gedit ~/.condarc,检查一下,是否-default默认的源到了top位置,如果出现了这样的情况,不防删除-default(因为将其移到最后位置,过一段时间可能就又到了top位置,这时我们就不能优先使用国内的源)。修改文件/etc/apt/apt.conf。修改/添加~/.pip/pip.conf。
2023-06-02 14:31:36 1420
原创 caffe和onnx对protobuf的依赖
ONNX 和 Caffe 都使用 Protobuf 库来序列化和反序列化结构化数据。它们可能需要不同版本的 Protobuf 库,这可能会导致冲突。但如果执行import onnx的时候会报错找不到protobuf,这时候可以执行。ONNX 支持 Protobuf v3.12.2 到 v3.20.1 的版本。此时caffe和onnx都可以正常使用。
2023-06-02 14:16:31 791
原创 ModuleNotFoundError: No module named ‘google.protobuf‘
结果import caffe的时候报错:TypeError: Couldn't build proto file into descriptor pool: duplicate file name caffe.proto。import caffe不成功,报错import caffe ModuleNotFoundError: No module named 'google.protobuf'直接pip install protobuf,
2023-05-15 15:39:24 537 1
原创 GIT操作:把当前仓库的一个分支push到另一个仓库的指定分支
rep2后面是rep2的一个分支,可以指定为master或你要push的目标分支,都可以。newOrigin是你想push上哪个远程库,branch1是你想push的那个分支,branch2是push到远程的那个分支。有时候我们想把当前仓库A的一个指定分支1 推给 另一个仓库B的另一个指定分支2,3.newOrigin:远程仓库名称,可以随便起个方便记忆的,目的是在本地添加一个新的远程链接。2.查看当前仓库origin只有一个,接下来我们要add另一个仓库的origin。1.在当前仓库操作:更新代码库。
2023-04-19 11:47:33 10997
原创 yolov5s模型转caffe
目前我使用的源码为2023年4月6日的master版本,应该对应v7.1或者v8.0版本。主要调用export.py函数进行onnx模型导出,具体执行命令如下。其中设置图像的分辨率为640*640,batch为1。每个版本对应的Assets下有相应的下载链接。3. onnx模型转caffe模型。1.yolov5s模型下载。2.onnx模型导出。
2023-04-18 17:25:29 334
原创 nvidia-smi:Failed to initialize NVML:Driver/library version mismatch
参考链接:linux里面编译安装显卡驱动失败:ERROR:Unable to find the kernel source tree for the currently running kernel._error: unable to find the kernel source tree for t_愿一直的博客-CSDN博客
2023-04-18 16:34:29 823
原创 ModuleNotFoundError:No module named “te_fusion“
上述几个包的路径有可能在/home/HwHiAiUser/Ascend/ascend-toolkit/latest/fwkacllib/lib64/下面,根据自己情况进行确定。场景描述:ONNXRuntime调用CANN后端执行时,报了没有找到te_fusion的error,从EROOR来看这是没有找到tensor engine融合的模块.Asecend Tensor Compiler简称ATC,昇腾张量编译器,主要是将开源框架的。: No module named "te_fusion"的错误;
2023-04-12 15:35:25 964 2
原创 c++打印文件名,行号,函数
1)stdio.h是一个标准库头文件,包含了标准输入输出函数的定义,如printf()和scanf()等函数的声明。如果您想在C程序中使用这些函数,则需要在程序的顶部包含这个头文件。3) __FUNCTION__ 宏在预编译时会替换成当前的函数名称。1)__FILE__ 宏在预编译时会替换成当前的源文件名。2) __LINE__ 宏在预编译时会替换成当前的行号。
2023-04-12 15:16:13 1460
原创 Windows系统配置SSH服务
选择【OpenSSH 服务端】,切记不是【OpenSSH 客户端】(如果安装一个不行,就都安装,我都安装了可以用),然后点击下载即可。新增连接,填入主机的IP就行,然后点击连接,会弹出用户名和密码的输入框,填入即可。右键-属性,启动类型选择:【自动】,这样就实现了开机自启。按下【win】+R键,输入【services.msc】搜索到【OpenSSH SSH Server】服务。下载完成后会自动安装,安装成功会出现在列表中。打开【设置】-【应用】选择【管理可选功能】点击【添加可选功能】
2023-04-04 16:09:08 4586
转载 解决“Cmake error :generator: Ninja“问题
解决“Cmake error :generator: Ninja“问题
2023-01-04 10:34:27 1827 2
原创 服务器conda环境使用python虚拟环境教程
如果为false,那么一定要先看自己CUDA版本。如果需要删除env_name虚拟环境中的某个包。后面会问你要不要下载一些内置库,选择y。查看驱动版本:nvida-smi。
2022-10-25 16:49:57 950
原创 github token个人令牌
意思是自从21年8月13后不再支持用户名密码的方式验证了,需要创建个人访问令牌(personal access token)。
2022-08-24 17:47:33 4636
原创 ubuntu安装配置gtest
源码安装1.github上下载源码2.源码编译报错 源码编译居然会报错。。。仔细检查第一条错误,原来需要用c++11的标准来编译代码。打开googletest文件夹里面的CMakeLists.txt在里面新增这一行此时CMakeLists.txt为:修改完成之和,再进行编译。安装完成3. 如果出现找不到library将生成的libgtest.a和libgtest_main.a拷贝到系统的lib路径下参考链接:Ubuntu下安装编译googletest,并进行调
2022-07-13 17:44:14 1825 1
原创 onnx-modifier:ONNX可视化编辑
onnx可视化编辑:参考链接:onnx-modifier:ONNX可视化编辑_歌你一下的博客-CSDN博客_onnx模型 可视化
2022-06-15 11:51:27 375
原创 gerrit配置教程
参考链接:SSH 密钥登录:not in PubkeyAcceptedKeyTypes_懒是一种态度的博客-CSDN博客解决Permissions 0777 for '/root/.ssh/id_rsa' are too open问题_love421的博客-CSDN博客git debug gerrit无法review代码_xiaojueguan的博客-CSDN博客Ubuntu安装openssh - cicarius - 博客园pyt...
2022-03-30 15:29:40 3230
转载 windows11文件夹共享设置 如何共享 如何访问
一、确保文件夹共享相关服务处于启动状态 按快捷键Windows + R,输入services.msc,回车打开服务。确保以下服务都开启,需要全部开启后才能保证共享正常:1. DNS Client:DNS 客户端服务(dnscache)缓存域名系统(DNS)名称并注册该计算机的完整计算机名称。如果该服务被停止,将继续解析 DNS 名称。然而,将不缓存 DNS 名称的查询结果,且不注册计算机名称。如果该服务被禁用,则任何明确依赖于它的服务都将无法启动。2.Network Connections.
2022-03-28 15:33:01 12406
原创 git 常用命令
下面是我整理的常用 Git 命令清单。几个专用名词的译名如下。Workspace:工作区 Index / Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库本地分支关联远程git branch --set-upstream-to=origin/分支名 分支名说明:origin/分支名:本地分支对应的远程分支分支名:当前的本地分支关联目的是在执行git pull,git push操作时不需要指定对应的远程分支代码库修...
2022-03-21 17:59:33 366
原创 ubuntu环境变量的设置、查看和删除
一、设置1. export 指令export PATH=$PATH:/home/xiaoming/Doc 将 /home/xiaoming/Doc 放到了名为 PATH 的环境变量的后面或者export PATH=/home/xiaoming/Doc:$PATH 将 /home/xiaoming/Doc 放到了名为 PATH 的环境变量的前面。或者export MY_ENV_PATH=/home/xiaoming/Doc 创建名为 MY_ENV_PATH 环境变量
2022-02-11 14:57:45 11819
原创 How to predict fast? 修改onnx model支持batch模式
在onnxruntime中如何可以支持“batching”模式使模型前向运行更快呢:参考链接:https://github.com/microsoft/onnxruntime/issues/2118 OnnxRunTime的部署流程_hjxu2016的博客-CSDN博客_c++ onnx 部署...
2022-02-10 15:38:53 2574
原创 wins通过tensorboard可视化远程服务器训练结果
windows 利用xshell等ssh工具远程连接服务器时,可以通过如下设置可视化tensorboard1. Xshell -> 文件 -> 当前会话属性 -> 连接 -> SSH -> 隧道点添加,之后源主机和目标主机都是localhost不变,这里注意千万别改变这两个选项,都是localhost。如图,端口号注意一致,简单起见,设为相同,注意和命令tensorboard --logdir='file' --port=6006中一致,如果出现端口号占用,换一个。
2022-01-17 20:02:26 1549
转载 详细的Faster R-CNN源码解析之ROI-Pooling逐行代码解析
在笔者的上一篇博客中,解析了Faster R-CNN中的RPN代码,在本篇博客中,笔者详细地解析一下ROI-Pooling代码。为大家讲解2015年Fast R-CNN的核心贡献(ROI Pooling被Faster R-CNN沿用)ROI Pooling的实现原理。(笔者其实一年半之前就看过这个代码,只是当时没有写到博客上,感慨.jpg) 在代码解析正式开始之前,笔者声明几点:1. 本篇博客解析的ROI-Pooling代码分为两个框架下实现的,第一个当然是Ross Girshick实现的py-..
2021-12-16 15:49:34 531
转载 详细的Faster R-CNN源码解析之ROI-Pooling逐行代码解析
在笔者的上一篇博客中,解析了Faster R-CNN中的RPN代码,在本篇博客中,笔者详细地解析一下ROI-Pooling代码。为大家讲解2015年Fast R-CNN的核心贡献(ROI Pooling被Faster R-CNN沿用)ROI Pooling的实现原理。(笔者其实一年半之前就看过这个代码,只是当时没有写到博客上,感慨.jpg) 在代码解析正式开始之前,笔者声明几点:1. 本篇博客解析的ROI-Poo...
2021-12-16 15:36:19 227
转载 Faster R-CNN CPU环境搭建
操作系统: bigtop@bigtop-SdcOS-Hypervisor:~/py-faster-rcnn/tools$ cat /etc/issueUbuntu 14.04.2 LTS \n \lPython版本:bigtop@bigtop-SdcOS-Hypervisor:~/py-faster-rcnn/tools$ python --versionPython 2.7.6pip版本:bigtop@bigtop-SdcOS-Hypervisor:~/py-faster-rcnn/tool.
2021-12-15 11:05:43 561
原创 Yolov5 v6.0模型简介
参考链接:https://blog.csdn.net/IEEE_FELLOW/article/details/117536808YOLOv5模型剪枝压缩_IEEE_FELLOW的博客-CSDN博客_yolov5压缩
2021-12-10 14:11:24 2265
原创 onnx模型制作
参考链接:ONNX-开放式神经网络交换格式 - vh_pg - 博客园Play with ONNX operators — sklearn-onnx 1.9.2 documentationPython helper.make_graph方法代码示例 - 纯净天空https://github.com/onnx/onnx/blob/master/onnx/test/helper_test.py...
2021-09-26 14:50:33 4290
原创 ubuntu安装配置onnxruntime
1.onnxruntime下载配置项目链接:https://github.com/microsoft/onnxruntime环境配置链接:Linux 下onnxruntime源码安装2.cmake安装下载路径:Download | CMake环境配置链接:Ubuntu 18.04下安装最新CMake及CMake简单使用3.python3.7安装环境配置链接:ubuntu安装python3.7,并更新python默认指向为python3.7Python library no
2021-09-26 13:57:44 3010
原创 onnx runtime
参考链接:https://blog.csdn.net/jizhidexiaoming/article/details/116268564
2021-08-30 19:45:29 136
原创 OCR之lstm
参考链接:https://blog.csdn.net/znevegiveup1/article/details/112055177
2021-08-17 18:47:22 273
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人