安装、配置等
NuerNuer
这个作者很懒,什么都没留下…
展开
-
坑 之 Ubuntu Conda虚拟环境使用faiss-gpu报错分析及解决办法
faiss-gpu的使用于cuda版本是紧密相关的,cuda又是与nvidia driver紧密相关的,nvidia driver又是与显卡紧密相关的原创 2023-05-16 22:44:56 · 5519 阅读 · 2 评论 -
已解决 Miniconda 出现from conda.cli import mainModuleNotFoundError: No module named ‘conda‘
miniconda出现出现from conda.cli import mainModuleNotFoundError: No module named 'conda',解决方法原创 2022-09-26 23:11:22 · 1338 阅读 · 3 评论 -
pip install “git+https://xxx“在网络不可用情况下如何使用
pip install git+ 在网络不可用下安装外部依赖包原创 2022-09-26 22:37:55 · 6957 阅读 · 4 评论 -
AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal
我在使用torch多卡并行时出现了这个两个问题。##问题一:AssertionError: Invalid device id,即无效的设备id出现的原因:结合代码解释:import ...os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"model = model(...)torch.cuda.set_device(2)model = torch.nn.DataParrel(model, device_ids=[2,3])错误原因:o原创 2022-01-14 17:27:40 · 12549 阅读 · 0 评论 -
记录之使用3080ti运行tensorflow-gpu=1.x版本的源码
环境:Anaconda3,ubuntu18.04,RTX3080ti,python3.7RTX3080ti显卡是当前市面上比较新的,算力比较强的显卡,且这类显卡采用了安培架构仅支持cuda11.x及以上版本。关于tf-gpu,cuda,cudnn间的对应关系,我们可以查看:从源代码构建 | TensorFlow关于驱动和cuda,cudnn的对应关系,我们可以查看:Release Notes :: CUDA Toolkit Documentation##问题1:我的30系列卡的驱动为450.x.x..原创 2021-11-29 22:20:15 · 3103 阅读 · 4 评论 -
解决ImportError: cannot import name ‘imread‘ from ‘scipy.misc‘
官方解释: scipy.misc.imread ( scipy.misc.imwrite) is deprecated in SciPy 1.0.0, and will be removed in 1.2.0.所以版本高于1.2.0的scipy会报函数找不到的错误,解决方案有两种。1.官方建议:Use ``imageio.imwrite`` instead.Use ``imageio.imread`` instead.在代码里 import imageio,然后import image.原创 2021-10-27 21:41:29 · 4699 阅读 · 0 评论 -
cuda,nvidia-driver ,cudnn下载地址及版本对应
1.cuda:CUDA Toolkit 11.5 Downloads | NVIDIA Developer右下角可下载先前版本2.nvidia-driver:https://www.nvidia.cn/Download/index.aspx?lang=cn选择对应的显卡,及合适的驱动版本3.cudnn:https://developer.nvidia.com/rdp/cudnn-download4.查看三者版本对应关系:https://docs.nvidia.com/cu..原创 2021-10-27 20:43:22 · 4850 阅读 · 0 评论 -
ubuntu切换python,以及切换python后相关包的管理
事情是这样的,当前机器上有两个python版本,即python2.7和python3.8,他们分别与/usr/bin/python和/usr/bin/python3建立软链接.且python3.8的pip3.8和/usr/bin/pip及/usr/bin/pip都建立了软链接.我的代码运行需要使用python3.7,所以必须安装python3.7.装好python3.7后,还需要给pip3.7建立适当的软链接,否则使用pip或pip3下载的包doughnut默认进python3.8的包路径下...原创 2021-08-17 15:35:09 · 650 阅读 · 0 评论 -
conda 分享自己的实验环境
我们在实验时肯定遇到过因为自己的环境与开源项目不匹配导致的各种各样的报错,另我们痛心疾首,如果一个同学想要复现你的代码,如果能建立一个与你一致的实验环境,就省去不少麻烦,所以为了方便自己和他人<_<,我们来看一下conda中如何分享自己的实验环境。假设当前有一个实验环境: env11.激活环境:source activate env12.生成环境的描述文件 environment.yml(在当前目录下)conda env export > environment..原创 2021-08-17 09:47:36 · 454 阅读 · 0 评论 -
报错 之 ModuleNotFoundError: No module named ‘setproctitle‘
正常报这种错误是因为模块缺失,我们正常安装即可:pip install -ihttps://pypi.tuna.tsinghua.edu.cn/simplesetproctitle但是有时在安装时会遇到新的问题:AttributeError: module 'enum' has no attribute 'IntFlag'错误原因:这篇文章介绍的相对清楚,https://blog.csdn.net/weixin_41010198/article/details/87255393这个..原创 2021-05-09 18:30:08 · 3576 阅读 · 0 评论 -
安装scipy报错,疑似缺少wheel包,解决方案
先说一下报错信息:使用pip3安装scipy包,报错。ERROR: Could not build wheels for scipy which use PEP 517 and cannot be installed directly网上关于这类问题的解决方案较少,我简单的记了几个原因:1.有人说是numpy和scipy版本不一致,还有就是安装顺序也会造成影响(但之前怎么没有遇到过这问题?误打误撞?)2.有人说是缺少某某wheel包3.有人说把pip升级......上述几种我都试了,但是我原创 2021-04-27 10:26:01 · 6356 阅读 · 3 评论 -
记录 之 离线安装docker
最近在做的一个项目,因为种种原因,服务器的yum在下载的时候总是报无法解析域名,找不到软件包的错误,导致我无法正常的按照标准的方式来安装docker,所以就只能采取离线安装的方式。首先说说明我的机器环境的基本情况。arm64架构(aarch64),Red Hat 8.3.1-5(Centos 8)使用下列指令查看本机操作系统版本及架构:cat /proc/version我采用的是下载tgz包的方式进行安装。还有一种方式是下载rpm包进行安装,两种安装方式会存在一些差别下载自己需要的docker原创 2021-04-17 11:14:38 · 228 阅读 · 0 评论 -
linux查看显卡版本(没有安装显卡驱动之前)
注意看标题,装了显卡驱动,当然用nvidia-smi就可以了安装驱动之前nvidia-smi就不可以用了啊,哈哈哈方法如下:1.lspci | grep -i nvidia得到类似输出后,就蒙圈了接下来可以通过这个神奇的网站来识别显卡型号:http://pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci进入后,直接输入1eb8,得到:那我们的显卡就为Tesla T4了...原创 2021-04-13 23:02:06 · 5049 阅读 · 0 评论 -
linux服务器cuda,cudnn的安装与卸载
写在前面,抛开nvidia驱动和tf-gpu版本谈cuda及cudnn的安装都是耍流氓。大家一定要注意版本对应关系,我遇到了几个典型的因版本不对应导致的问题,我会写在本文后面。机器显卡为tesla t4.安装的驱动为418.81.07;安装的cuda版本为cuda10.0 ;cudnn版本为7.6.5;tf-gpu版本为1.14.01.卸载旧版本:cuda的默认安装在 /usr/local/下,用下面的命令卸载:sudo /usr/local/cuda-x.x/bin/uninstall_c原创 2021-04-13 22:50:33 · 4167 阅读 · 0 评论 -
linux服务器nvidia驱动的安装与卸载
一.卸载有两种方式:(1)sudo apt-get install autoremove --purge nvidia*有的时候这个命令会不好用,本人暂不知道原因,可以采用方式二(2)sudo /usr/bin/nvidia-uninstall采用 nvidia-smi命令,发现command not found,就说明成功卸载二.安装nvidia驱动下载:https://www.nvidia.cn/Download/index.aspx?lang=cn安装步骤:https://blog原创 2021-04-13 18:29:12 · 6504 阅读 · 1 评论 -
docker使用镜像报错:standard_init_linux.go:211: exec user process caused “exec format error“
在服务器使用镜像运行代码时出现了该报错。使用了docker run 后,由于是刚接触docker,不知道是什么原因。经网上查阅资料后,了解到原来有可能是我的镜像架构和机器架构不一致。使用 docker inspect 命令调出我的镜像架构:是arm64使用uname -a指令查看机器架构:是x86_64相关解决办法:1.https://blog.csdn.net/hhyywwai/article/details/1083699842.https://blog.csdn.net/xiang_f原创 2021-04-10 21:32:50 · 10141 阅读 · 0 评论 -
Docker环境下:ImportError: libSM.so.6: cannot open shared object file: No such file or directory
在使用docker利用镜像运行代码的时候遇到了这个问题,困扰了我很长时间。我试过网上的两种方法,一种是yum安装相关依赖。另一种是apt-get安装相关依赖。但是这两种方法都没有解决我的问题。感兴趣的同学可以去试一下我最后的解决办法是: pip install opencv-python-headless pip install opencv-contrib-python-headless 安装上述两个版本的opencv-python。特此记录...原创 2021-04-09 17:45:53 · 498 阅读 · 0 评论 -
Docker环境下报错:unknown group ‘mlocate‘ in statoverride file E: Sub-process /usr/bin/dpkg
先说一下我的问题,我是在docker下运行代码,然后在使用apt-get 来install包的时候,遇到这样的问题。在裸机上运行的话也许会对你有帮助解决办法:我们去到/var/lib/dpkg/路径下,打开statoverride文件,将“mlocate”删除。这个问题就可以解决类似的如果遇到类似unknown group ‘xxxx’ 的问题,可以尝试这种解决办法。...原创 2021-04-09 17:29:21 · 1375 阅读 · 3 评论 -
记录 之 在华为NPU上变更镜像
一.安装dockersudo apt-get remove docker docker-engine docker-ce docker.io #卸掉旧版本 sudo apt-get update #更新apt索引sudo apt-get install -y apt-transport-https ca-certificates curl software-properties-common #安装该包curl -fsSL https://download.docker.com/linux原创 2021-04-06 23:33:54 · 283 阅读 · 0 评论 -
坑 之 Tensorflow安装在导入模块时会出现ImportError: DLL load failed: 找不到指定的模块的问题
最近在使用tensorflow-gpu的时候遇到了这个问题,特此记录一下。问题描述:windows下,安装tensorflow-gpu时选择了1.13.0。在调用时便出现了这个问题。经过查询发现,最有可能的原因就是tf-gpu版本有问题,因为我的同学之前有遇到过安装tf2.x后,出现这种问题。当时我给的建议是将tf版本回退至1.13.1,他的问题就解决了。然而我的tf-gpu版本已经可以安装的所有版本中最低的,已经无法回退。于是就尝试将版本升级,升到了1.15.0。令人惊喜的是,问题解决了。所以,出原创 2021-04-05 18:10:16 · 246 阅读 · 2 评论 -
ubuntu系统靠谱的清理内存的方法(can not allocate memory 问题)
首先声明一点,这里的内存指的是我们的运行内存,我看很多博客将二者混淆。清理内存我们清理的是什么?我们知道,系统在执行程序时,会创建对应的进程,并将用到的部分(代码段等)加载进内存,这样就造成了内存占用。如果我们在执行指令时非正常退出(例如Ctrl+Z强制退出),那么残留进程无法关闭,就造成这部分代码段或数据段残留在内存而无法被清理,久而久之,就会造成内存不足。当然你可以选择关闭计算机实现内存清理,这是最简单的办法,但如果你是用的是服务器等不便关机的机器,就需要你手动进行清理了。我看了很多博客,大家基本上都原创 2020-12-22 13:41:20 · 2087 阅读 · 0 评论 -
Sorry, user *** is not allowed to execute ‘xxxx‘ as root on ****.
出现这种问题的原因就是用户user不具备某些用户(root)权限所导致的,这样,我们只需将root的某些权限赋给user即可,按下面的步骤来即可:1.在root用户下,打开 /etc/sudoers 文件:chmod u+w /etc/sudoers #因为是只读文件,赋予写权限vi /etc/sudoers #使用vim编辑文件还不熟悉vim基本用法的可以看过来,最最基本的几个用法:i : 进入插入模式,即可自由编辑Ctrl+C :退出插入模式:wq! : 保存退出,退出之前一原创 2020-12-05 11:39:30 · 18932 阅读 · 1 评论 -
hostname, aliases, ipaddrs = gethostbyaddr(name) UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte
在运行代码的时候突然报这样的错误:........hostname, aliases, ipaddrs = gethostbyaddr(name)UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbl in position 0: invalid start byte查了很多资料都是关于打开txt文件的才会出现类似的报错,但我的并不是,其实关键在于这个报错信息的上半句,结合来看就能发现,是在获取主机名的时候发生了编码格式的错误,那么为什么原创 2020-11-28 18:08:14 · 2683 阅读 · 2 评论 -
mindspore学习之使用obsutil工具向桶中上传数据
我们在使用obs服务时,一般是自己建立文件夹,但是如果我们的数据集包含大量文件夹时,自己建立似乎不是一个好办法,那么如何批量向桶内的文件夹中上传数据呢,今天我们就来见识一下obsutil这个小工具的厉害,obsutil是一个非常小的工具,下载后免安装即可使用。1.下载obsutil工具:链接:https://support.huaweicloud.com/utiltg-obs/obs_11_0003.html2.选择合适的版本进行下载,这里我下载的是windows版本的,下载后解压3原创 2020-11-20 15:30:35 · 666 阅读 · 0 评论 -
关于tensorflow和keras那些事儿
大家知道,tensorflow和keras的安装分开来相对简单的,但是,一旦这两个东西放到一起用的时候,就会出现这样或那样的错误,接下来,我就给大家分享一下,如果在安装keras和tensorflow后出现下列几个问题的时候应该怎么做。1.ImportError: cannot import name pywrap_tensorflow2.ImportError: cannot import name np_utils3.from tensorflow.python.keras._impl.ke原创 2020-11-15 17:20:03 · 444 阅读 · 0 评论 -
如何只下载一个github项目的某一特定文件夹或文件
大部分人都会下载一个完整的github项目,无论是git clone命令,亦或是直接download zip文件,但是有的时候,我们不需要下载整个项目,因为下载整个项目可能耗时耗力,我们只需要下载其中某一个文件夹即可,那么这么一个简单的想法该怎么实现呢?首先你需要一个TortoiseSVN工具,官网下载:https://tortoisesvn.net/downloads.html下载完后,第一步:新建一个文件夹,任意名称,这里我们叫做test第二步:点击鼠标右键,会发现有SVN Checko原创 2020-11-14 16:16:08 · 2020 阅读 · 1 评论 -
电脑上同时安装了tensorflow和tensorflow-gpu,如何默认使用tensorflow-gpu
虽然也使用tensorflow这么长时间了,但是有个问题我一直没去思考,其实这问题也有困扰我很长时间,但是一直没有去思考如何解决,直到有一天运行模型的时候用cpua实在是卡到起飞,才决定去查找一下,其实也很简单。我们在使用tensorflow时,在代码里总是这样写 import tensorflow as tf 不少同学会遇到这种情况,电脑上既有tensorflow又有ensorflow-gpu,那么在运行代码的时候到底如何指定使用tensorflow-gpu的,又如何指定使用cpu版的tensor原创 2020-11-12 12:57:48 · 13262 阅读 · 15 评论 -
使用Letax引用文献一直报错: LaTeX Error: Something‘s wrong--perhaps a missing \item
这个问题困扰了我好久,最近终于下决心解决这个问题了,(之前就是直接将出错部分注释掉,很暴力)。首先大家如果对letax如何引用文献有问题,可以参考这篇博文:https://blog.csdn.net/u011221336/article/details/52277632我使用的方法是,将引用与正文分开来写。使用方式就是:\begin{document} ...... \bibliographystyle{aaai} \bibliography{bibtex/ref}原创 2020-08-30 17:25:14 · 4839 阅读 · 0 评论 -
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory
ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory出现这个问题的原因,主要是tensorflow-gpu版本和驱动cuda版本不一致所导致的,根据提示我们可以知道的是环境当前的tensorflow-gpu需要的cuda驱动为10.0,而当前环境的cuda版本低于10.0。解决方案:方案一: 第一步.明确自己的tensorflow-gpu版本,查找tensorflo.原创 2020-08-06 13:33:08 · 1451 阅读 · 0 评论 -
pip 指定路径安装工具包
命令如下:# 在dest_dir目标路径下,安装numpy包pip install -t dest_dir numpypip install --target dest_dir numpy原创 2020-08-04 14:42:16 · 254 阅读 · 0 评论 -
ubuntu 之 查看 cuda,cudnn版本
1.查看cudnn版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 22.查看cudnn版本则有很多种办法:①:nvidia-smi②:nvcc -V③:cat /usr/local/cuda/version.txt细心地同学会发现,有时①查看的cuda版本和②、③查出来的会不同,这是什么原因呢。原来cuda的API分为两种类型,一种是驱动(driver)API,另一种是运行(runtime)原创 2020-08-04 14:37:24 · 31923 阅读 · 9 评论 -
思科模拟器。计算机网络实验之四:RIPv2配置
在上一篇我们学会了如何配置静态路由,在这里我们来聊聊RIP,动态路由协议。【实验名称】RIPv2配置【实验目的】理解RIP两个版本之间的区别,掌握如何配置RIPv2【背景描述】假设在校园网在地理上分为2个区域,每个区域内分别有一台路由器连接了2个子网和两台PC,需要将两台路由器 通过以太网链路连接在一起并进行适当的配置,以实现这4个子网以及PC之间的互联互通。为了在未来每个校园区 域扩充子网数量的时候...原创 2020-06-09 23:12:53 · 5551 阅读 · 1 评论 -
思科模拟器,计算机网络实验三之:静态路由配置
静态路由配置是基于相对简单的的网络使用的,如果网络较复杂,则使用起来会很复杂,此时应选择动态路由配置【实验名称】静态路由配置。【实验目的】理解静态路由的工作原理,掌握如何配置静态路由。【背景描述】假设校园网分为2个区域,每个区域内使用1台路由器连接2个子网,和一台PC,现要在路由器上做适当配置,实现校 园网内各个区域子网以及PC之间的相互通信,PC网关自己分配【需求分析】两台路由器通过串口以V.35 DCE/DTE电缆连接在一起,每个路由器上设置...原创 2020-06-09 20:25:12 · 7707 阅读 · 0 评论 -
windows蓝屏问题困扰,错误代码:0x000000ED,已解决。(使用于无法进入安全模式,且无法还原上一次的正确配置等情况)
电脑出现蓝屏问题,大多数情况下是可以解决的,当然这里的解决是指非重装系统的解决,如果有小伙伴不介意重装系统,当然可以重装系统,但是就怕某些硬件问题得不到修复,重装系统也没有意义,错误代码x000000ED就是这样的错误,一般产生这样的错误的原因一般是磁盘暴力断电而导致损坏,我们就必须想办法修复磁盘。 接下来我们介绍如何解决这样的问题: (1...原创 2020-04-19 23:36:48 · 3673 阅读 · 0 评论