2019.3.12在京东上向卖家北纬恒达服务器工作站专营店购买力一台DELL poweredge T630深度学习服务器(两颗E5-2650 V4 CPU,64G内存、4T硬盘、NVIDIA K80 GPU,双1100W电源)。
3.15收到货后发现K80 GPU在设备管理器里面找不到(K80 GPU功耗300W,被动散热,无风扇),联系卖家(开始在京东上联系,然后卖家让我联系卖家QQ),买家说没有装散热风扇,给我们快递了一个机箱散热风扇(非GPU专用)过来,安装上后还是未能找到GPU。我们用自己的GPU安装上去能找到,但是发现当GPU被调用起来且运行一段时间后会蓝屏。把情况给卖家说了,卖家让把设备寄回去。
寄回去了后卖家说原来的GPU是坏的,于是换了一块GPU。我让卖家测试蓝屏问题,卖家说无法测试GPU,然后又寄回来了。但是无论是我们自己开发的并行计算有关的程序或者NVIDIA官方的CUDA_ToolKit自带Example程序还是第三方测试工具一运行起来还会出现蓝屏,也分别在win7和Windows server2012系统上都测过。
我咨询dell技术支持,Dell说这款服务器不支持K80 GPU,稳定性兼容性不能保证。DELL测试认证K80的服务器型号如下:https://www.dell.com/learn/us/en/04/campaigns/poweredge-gpu。
经过我们多次测试发现,出现蓝屏的时间长短与GPU的利用率有关,我们认为还是散热能力不够导致的。然后又找卖家,卖家不承认散热或兼容性问题,一直咬定是我们自己的软件问题。我们也测试了NVIDIA官方的高性能计算的example程序以及网上的第三方GPU测试工具,也会出现问题,但是卖家就是不承认,他们认为只要驱动能装上就没有问题。现在这个问题一直无法解决,现在想退货,卖家和京东以超过一个星期为由不让退货。现申请平台帮忙处理,谢谢。
理由总结:
1.卖家完全没有测试过GPU,更谈不上压力测试
2.DELL官方说法是这款服务器不支持K80GPU
3.只运行NVIDIA官方CUDA自带的高性能计算example程序也会蓝屏