深度学习与硬件——CPU、GPU和TPU

最新推荐文章于 2025-02-17 11:06:40 发布

cqu_shuai

最新推荐文章于 2025-02-17 11:06:40 发布

阅读量2.1k

点赞数

分类专栏：杂文文章标签：人工智能神经网络深度学习 GPU TPU

本文链接：https://blog.csdn.net/beilizhang/article/details/114588988

版权

13 篇文章

订阅专栏

显存独立于内存，内存和显存的读取可能会成为问题。GPU部署经常被内存与显存之间的带宽影响，可以增加CPU的核。
对于显存的处理，multi-stream processer并不如CPU一样强大。
GPU训练效率和显存利用率可以被 DeepSpeed 显著提升。
很少出现 GPU 多线程训练。
GPU 训练有时可能会被一些其他因素影响，如CPU，GPU 之间沟通速度（多
GPU或多节点）。
GPU 可处理动态的网络。
GPU 部署的最大问题：显存污染。（GPU发生运算时脱离CPU平台，显存只在固定的时间与内存做交互。如果多个运算（比如部署了多个微服务）想改变同一块显存的内容时，不会想CPU的内存一样产生警告。那么在另一个运算读取该部分内容时，已经发生了改变，因此产生错误的结果。）往往会在一台GPU上只对应一个serving节点。
部署时需要对参数做详细调整，最重要参数为 Batch Size。