查看和清除显存

深度学习训练过程中如果中断,很容易造成显存占用不释放的问题。做个记录,留着备用。

表现为报错:

tensorflow.python.framework.errors_impl.InternalError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory

1.查看是否出现了问题:nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.130                Driver Version: 384.130                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  TITAN V             Off  | 00000000:01:00.0  On |                  N/A |
| 39%   53C    P2    36W / 250W |  11959MiB / 12055MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1017      G   /usr/lib/xorg/Xorg                           298MiB |
|    0      1834      G   /opt/teamviewer/tv_bin/TeamViewer              6MiB |
|    0      2045      G   compiz                                       177MiB |
|    0      4118      G   ...-token=D609226DD6A56AEBB70B08FB7BC10F2E    78MiB |
|    0      4603      G   ...uest-channel-token=11061898972785214487    59MiB |
|    0     16481      C   python3                                      418MiB |
|    0     16537      C   python3                                    10916MiB |
+-----------------------------------------------------------------------------+

2.发现16537是罪魁祸首

 kill -9 16537

3.监控GPU:3代表3秒

watch -n 3 nvidia-smi

4.监控cpu和内存

 top -d 1

 free -m 

5.清除cache缓存内存空间

  1. sudo sh -c 'echo 1 > /proc/sys/vm/drop_caches'

  2. sudo sh -c 'echo 2 > /proc/sys/vm/drop_caches'

  3. sudo sh -c 'echo 3 > /proc/sys/vm/drop_caches'

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
服务器及IT设备常维护 一、服务器基本维护知识 服务器硬件维护注意事项 请不要在服务器内扩配或改配未经厂商认证的部件 静电释放和静电释放保护措施:静电释放会对主板、硬盘、板卡和系统的其它部件造成 损害,在您要对系统硬件进行设置时,最好在防静电环境下进行,如果没有这个条件,操 作人员尽量佩带防静电手环〔一端接地。 静电释放和板卡持拿:因为板卡上的芯片对静电特别敏感,持拿板卡必须小心,只能接触 主板的边沿。当板卡暂时不用时,必须把它放回专用的防静电袋中〔封闭,芯片朝上放 在接地平台上。 机箱盖:为了系统正常散热和空气流通,在系统上电前一定要安装机箱盖,否则会对系统 部件造成损害 服务器维护通常步骤 〔1普通硬件部件检测 1、确保在机箱和主板之间不存在短路。 2、把和主板相连接的线缆断掉,包括键盘和鼠标。 3、移走所有的外插板卡。 4、安装一颗 CPU <确保安装牢固> 5、连接机箱面板控制连线和电源指示灯LED连线到主板 6、检查跳线设置是否正确 〔2硬件级系统维护 1.请检查一下系统、BIOS设置是否正确。许多问题都是由系统设置不正确造成的。 2.请检查一下内存是否够用和硬件的兼容性。 3.通知客户退出网络,将服务器电源关闭,将机箱盖打开。 4.检查电缆和板卡插接是否正确。 5.将连接的硬件一件一件拆除下来,逐步发现问题的所在 系统BIOS BIOS设置又称CMOS设置,是基本的输入输出系统,可以利用专门的设置程序对系统参数 和硬件参数进行调整。 由于BIOS对系统的运转和启动有重大影响,所以,设置了不当的参数后可能会引起硬件 资源之间的冲突,或者降低系统运行的性能,因此,了解BIOS的设置对配置您的服务 器很重要,如果没有特殊的需要,建议您使用系统出厂时的默认值,不要随意改变BI OS。 二、服务器硬件故障诊断与排除 主板 CMOS清除 除了可清除口令外,如果机器使用一段时间后,BIOS自检出现不正常的提示,可以先做CMO S清除试一下。有时系统出现一些提示,CMOS清除会起到意想不到的作用。 服务器开机无显,可能与主板有关,需要有经验的工程师作判断。 板卡、线缆与主板接触不好,会导致机器不启动。 在开机无显时,可以移去内存,开机如果有内存报警的声音〔可以查服务器手册判断内存 报警提示,一般可以判断主板BIOS可以引导。 硬盘故障诊断 检查硬盘的电源电缆插接是否正确,牢固,松动导致检测不到硬盘。 如果有多个硬盘,但找不全,排除接触问题,检查硬盘的ID号设置是否相同。 感觉硬盘有问题,可以做硬盘的校验,不会破坏数据,如果提示出错或校验时非常不流畅, 硬盘一般有问题,具体如何操作参见服务器手册。 感觉硬盘有问题,也可以做硬盘的低级格式化,注意会破坏硬盘数据。如果提示出错,硬盘 有故障。 硬盘原来工作正常,现在发出异常声音,硬盘检测不到或工作不稳定,基本可以断定硬盘有 故障。 内存常见问题 系统安装不成功或在系统安装过程正常的情况下,安装应用软件困难,无缘无故死机或重 起,请检测内存好坏。 BIOS自检出现奇偶校验错,清除CMOS后,依然如故,内存问题可能性较大。 系统持续运行挂起,检测系统资源使用情况,利用率高居不下,内存需要扩充或优化系统〔 操作系统、应用系统 开机无显 网卡常见问题 接网线后,网卡指示灯不亮,首先检查网线等网络设备是否有问题,换线,换接口,排除此类 问题,可以判断网卡有故障。 网卡驱动安装完后,网络不通 网卡驱动程序错误 网络设置错误,具体细节见网络方面知识。 在100M/1000M速率下不能正常工作 Switch、hub端口和网卡端口设置模式为AUTO 网卡与SCSI控制器公用中断 服务器加电不启动 请检查电源的转换开关是否符合用户所在国家的用电标准〔一般应拨在220V档位上。 请检查插座接触是否良好 请检查内存和CPU等是否安装正确,接触良好。 请检查所有电缆连接得是否正确。 系统自检时出现错误提示 系统在启动过程中进行自检,如果出现错误,系统将给出提示。根据错误提示,分析错误原 因,以尽量缩小嫌疑范围。这时请你 检查BIOS设置是否正确。 所有电缆是否连接正常,外设的连接和固定是否正常。 分析出现错误的硬件,有针对性地排除嫌疑硬件的故障 显示器无显示 当显示器没有显示,但是服务器启动,键盘,驱动器和其它外设自检正常。 确定显卡是否有问题; 检查显示器的信号线和电源线插接是否正确,牢固; 调节显示器的对比度和亮度显示是否正常; 切断服务器电源和显示器的电源,检查显示器的信号线电缆的接头针是否弯曲 键盘和鼠标不工作 检查鼠标和键盘电缆的接头是否插接正确,并注意接头针是否弯曲。 检查鼠标在操作系统的控制面板中的设置是否正常。 清洁鼠标的滚动球和驱动轮 更换鼠标或键盘测试 光驱不工作 检查是否有光盘在光驱里面。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值