- 博客(18)
- 收藏
- 关注
原创 OSError: libcusparse.so.11: cannot open shared object file: No such file or directory
OSError: libcusparse.so.11: cannot open shared object file: No such file or directory RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting th
2022-03-09 10:19:49 3794
原创 NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
解决nvidia-smi失效的方案
2022-03-07 18:46:16 547
原创 sudo: /usr/local/bin/sudo 必须属于用户 ID 0(的用户)并且设置 setuid 位
背景:操作失误造成的sudo命令失效原因修改/usr/bin/sudo权限失误解决方案前提是拥有root账号chmod 4755 /usr/bin/sudo chmod 755 /usr如果还不行的话,执行下面操作chmod 4755 /usr/local/bin/sudo
2022-02-23 18:25:22 855
原创 Kernel panic - not syncing : VFS: Unable to mount root fs on unknown-block(0.0)
服务器宕机重启卡住
2022-02-23 17:03:50 5583 1
原创 invidia-smi报错Failed to initialize NVML: Driver/library version mismatch的根本原因
背景在上篇文章中我们阐述了如何去解决问题,结尾提出疑惑,思考根本原因,相信评论区的大神很多都已经有了答案,没错,就是禁止ubuntu20.04内核自动更新解决方案查看已安装的内核dpkg --get-selections |grep linux-image查看正在使用的内核uname -a禁止更新内核 sudo apt-mark hold linux-image-x.xx.x-xx-generic如果你需要自动更新,恢复允许更新内核sudo apt-mark
2021-12-10 18:21:14 389
原创 Failed to initialize NVML: Driver/library version mismatch解决方案
背景公司新买了一台A100的GPU服务器,上面已经装好了nvidia等等,把机器分享给算法的同事做性能测试,他们发现了一个问题,Failed to initialize NVML: Driver/library version mismatch,查阅资料发现是内核和nvidia不兼容导致的,所以卸载升级了一下nvidia,reboot重启了一下电脑,灾难来临了。开机开不了,去机房重装系统也开机不了,当时都是崩溃的,当然,这是后话。后来成功的解决了,费了好大的劲。现在主要说这个问题的解决方法,当我装好系统
2021-12-10 17:56:37 5271 2
原创 上传文件突然报nginx错误413
背景前端有一个上传文件的功能,一直好好的,突然nginx报错413方案413问题是指上传文件大小限制问题默认nginx的限制大小为:1M当超过默认大小的时候就会报413的错误我们可以评估我们nginx上传文件的峰值,例如:10M在nginx中的添加client_max_body_size 10M;即可。当然了,nginx可添加的位置值得思考:可以添加到http{}中,可以添加到service{}中,也可以添加到location{}中一般建议根据具体项目添加到相应location{}下
2021-12-08 17:59:13 822
原创 python多环境切换所用到的获取系统传入参数
背景近来一个小需求,flask项目中存在多个环境,现在要把他们区分开执行。这里有个比较简单的小技巧。实例当你代码里面已经通过函数定义了获取环境的方法,我们只需要传入某个变量就可以,这时候我们可以:env = sys.argv[1]代码启动的时候python test.py dev这样我们就把dev传入到了env结果很显然,这样我们可以简单的实现需求。 当然,方法不止这一种,还有好多,欢迎来探讨。...
2021-12-08 16:27:29 677
原创 linux当中xfs文件系统扩容,减少某个目录空间,增加到另一个目录
背景今天遇到一个棘手的问题,df -h 查看服务器,发现/目录磁盘使用率100%,而/home目录使用率只有1%,还有很大的空闲空间。我想把/home目录下面空闲的空间迁移到/目录下,这是完全可行的。目的: 减少/home目录,增大/目录先备份一下/home目录xfsdump -l 0 -L home -M home -f /opt/home.xfsdump /home卸载/home目录 umount /home调整/home目录到2T:(适自己情况而定)lvreduce -L 2T /dev/
2021-11-29 19:56:29 840
原创 java中使用线程池,如何保证子线程全部结束再去执行主线程
背景:我们打算使用ThreadPoolExecutor建立一个100个线程的线程池,然后异步的去submit任务,每来一个任务,我们就去消耗一个线程,使用完再归还,如果多线程是最后一步,调用完就结束不会有任何问题,但是无独有偶,我就想调用完所有的子线程然后再后续操作,这其中依赖子线程的结果。那么这个时候就会造成线程不安全。解决办法方法有很多,信号量啊,thread.join,等等,不过都相对于繁琐,这里推荐一个好用的方法shutdown()和awaitTermination(180, Time
2021-11-20 17:59:30 1319
原创 重定向不适用Runtime.getRuntime().exec()
踏遍千山万水寻找真相背景:我们都知道有时候会使用java来调用linux服务器上的命令,这时候自热而然的我们就想到了Runtime.getRuntime().exec(),但是今天再调用一个hive -e命令时就发生了意外。解析:Runtime.getRuntime().exec()和直接在linux环境中调用命令不完全一致!比如重定向,直接用Runtime.getRuntime().exec()调用会出现阻塞,卡住,不能执行成功解决方法Runtime.getRuntime().exec(ne
2021-11-20 17:35:25 1538
原创 sqlserver中字符串前面补0
工作中可能会出现这种情况,就是你数据库里面某个字段是String类型,例如0010378821 但是当你导入到excle后发现自动转化成为了int类型 10378821 丢失了前面的0当你收到excle文件后要与sqlserver数据库中做映射时,这时候你遇到了困扰,如何把0补回来恭喜你,这里有个方案供你参考首先我们把excle表导入成库中一张表,然后对该表的字段补0,update excle表 set 补0字段 = RIGHT('0' + CONVERT(VARCHAR, 补0字段), 1
2021-11-02 11:22:53 5316
原创 linux系统中如何进入D:\result的文件夹
一般不会出现这种情况,也不允许出现这种情况,如果你正好把winserver上的代码没有修改直接在linux系统中执行,并且急需拿到文件夹中的文件,不要着急,这是可以解决的linux当中对于:\这些特殊符号都会转义,不多说,直接上菜比如cd D:\result 你会失败,找不到该文件夹那么只要你换成cd D:\result 就可以完美的解决了是不是很开心呢...
2021-11-01 09:58:50 238
原创 it has been marked SUSPECT by recover Explanation
it has been marked SUSPECT by recover Explanation机房停电造成的sqlserver数据库打不开,并且提示报错it has been marked SUSPECT by recover Explanation,遇到这种事情不要着急,因为这是可以修复的。我们把该问题数据库当初可疑数据库来处理。解决方案遇到这种情况,如果你不是集群和有备份的话,第一件是事情就是先备份数据文件.mdf/.ndf和日志文件.ldf,一般linux上默认的路径为/var/opt/ms
2021-10-09 15:42:19 273
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人