GeForce RTX 3090深度学习测评

最新推荐文章于 2025-03-16 09:21:42 发布

ordinarabbit

最新推荐文章于 2025-03-16 09:21:42 发布

阅读量8.7k

点赞数 3

分类专栏：深度学习文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/qq_42968558/article/details/109718506

版权

深度学习专栏收录该内容

4 篇文章

订阅专栏

GeForce RTX 3090深度学习测评

环境踩坑

八卡GeForce RTX 3090+Pytorch1.7+cuda11.1+对应cudnn
pytorch 1.7以下版本无法对显卡写入数据
tensorflow未尝试据别的文章说只有nightly支持
驱动如下：

NVIDIA-SMI 455.23.05    
Driver Version: 455.23.05    
CUDA Version: 11.1

环境是conda直接安装
在这里插入图片描述

测试速度

用一台8卡2080Ti的服务器作对比，除了环境以外代码和数据集相同。
用脉冲残差神经网络，spike-ResNet18做对比（这个网络非常吃显存，可以把8卡2080Ti跑满）
采用分布式学习

2080Ti 19分48s跑了849个batch，每个batch是20个样本（8*20=160）
在这里插入图片描述
3090 19分23s跑了799个batch，每个batch是20个样本（8*20=160）

在这里插入图片描述

【待更新，等跑几个epoch回来】

结论

3090的速度受到环境限制可能未必能超过之前的中高端显卡
一个潜在的可能性是我使用的实验环境上，两台服务器的架构不太一样，2080Ti服务器多卡通讯效率更高一些
师兄的实验：单卡3090甚至也比2080Ti更慢一些
进一步怀疑是不是因为编程框架太新优化不够好，CUDA的测例网上已经有很多，都认为3090快得多
更进一步怀疑是不是散热的问题，tf的实验还有待更新

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ordinarabbit

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
6
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

目标检测YOLO实战应用案例100讲-基于深度学习的水下图像增强及目标检测算法研究与应用（中）

qq_36130719的博客

04-28

974

和基于深度学习的方法CycleGAN[64]，UGAN[36]，Water-Net[42]，UWGAN[38]（underwaterGAN，水下GAN）和FUnIE-GAN[89]。图4-9为典型的水下色偏的图像，大多数增强方法对其颜色校正的效果有限。比较方法包括传统方法FE[12]，RB[16]，RCP[26]，UDCP[23]，IBLA[28]，Uhaze-line[30]，方法，图像复原方法：RCP[26]，UDCP[23]，IBLA[28]，和Uhaze-line[30]方法，以及基于。

深度学习工作站攒机指南

郭耀华's Blog | 人工智能领域技术博客

05-11

1542

目录引言配置清单配件选购指南主板芯片组对比CPUPCIe 通道对比内存频率SSDM.2接口容量机械硬盘显卡性能对比性价比分析整体建议（转载）选购电源散热器机箱风扇组装性能测试引言接触深度学习已经快两年了，之前一直使用Google Colab和Kaggle Kernel提供的免费GPU（Tesla K80）训练模型（最近Google将Colab的GPU升级为Tesla T4，计算速度...

6 条评论您还未登录，请先登录后发表或查看评论

关于paddledetection在RTX 3090上推理速度慢的问题

qq_40109230的博客

04-19

1692

**问题：**我在我的笔记本（rtx2060）和工作站（rtx3090）先后安装了paddledetection，但是在测试过程中发现，工作站上仅仅测试一张图片就要花很长时间（大约3min），排查了各种其他问题后，去padledetection官方github仓库中找到了可能的答案。官方说可能是因为gpu架构问题，目前这个问题还无法解决，在官方发布新版本后我会测试这个问题是否解决。 ...

Nvidia GTX 3090:Pytorch安装教程(GPU版本)

m0_46928770的博客

02-13

1412

GPU版本的pytorch要根据显卡的型号选择合适的版本(Nvidia GTX 3090)

RTX3090架构革新与性能释放

最新发布

tiangang2024的博客

03-16

1189

NVIDIA RTX 3090基于突破性Ampere架构，搭载10496个CUDA核心与24GB GDDR6X显存，通过第三代Tensor Core与第二代RT Core实现光线追踪性能飞跃，实测4K游戏帧率较前代提升50%，同时满足8K内容创作与深度学习运算需求，重新定义旗舰显卡性能边界。

RTX3090深度学习环境配置（PyTorch1.8）

周先森爱吃素的博客

01-28

1万+

本文介绍在3090服务器上如何快速配置PyTorch深度学习环境。

小白搭建RTX3090环境对应的深度学习环境~tensorflow环境搭建/pytorch环境搭建

小姑仔的博客

12-28

2866

最近买了一块新出的RTX3090对应的GPU，主要就是想买块好点的GPU供以后的学习使用，搭建环境的过程中遇到了很多的阻碍，但是经过网上查阅资料等重重困难之后，最终还是成功地将这一块新型的GPU投入使用了，这里总结一下通过GPU搭建相应的学习环境中的对应的过程。 1.下载安装对应的驱动程序这里我选择的对应驱动程序为456.55，下载驱动对应的网址为驱动程序网址这里驱动程序安装没有特别大的难点，所以不作详细介绍了 2.下载安装对应的cuda以及cudnn程序安装步骤可以参照这篇相应的博客内容 cuda和

时代变了，大人：RTX 3090时代，哪款显卡配得上我的炼丹炉？

深度学习技术前沿

09-11

5623

点击上方，选择星标或置顶，不定期资源大放送！阅读大概需要15分钟Follow小博主，每天更新前沿干货黄老板的 RTX 30 系列显卡 9 月 17 日就要发售了，现在我要怎么买 GPU？...

3090显卡深度学习无法加速

豆芽菜

07-19

1228

win下可能原因之一：

深度学习设备购置RTX 2080Ti + i7 9700k+ Z390 A主板

silver1225的博客

09-02

3990

文章目录购置清单GPU选购参考指标CPU及主板选购参考固态硬盘选择参考教程及相关问答Reference 目标：构建一个深度学习个人工作站购置清单硬件型号数量链接参考价格 CPU I7-9700k 1 京东链接 2899 GPU RTX 2080ti 1 京东链接 8999 内存金士顿 DDR4 2666 8GB 2 京东链接 259 * 2 主板 ASUS...

3090

03-10

标题中的"3090"很可能是指NVIDIA的GeForce RTX 3090显卡，这是一款高端显卡，专为专业图形处理、深度学习和极致游戏体验设计。在IT领域，这款显卡以其强大的性能和先进的特性备受瞩目。在描述中同样只有"3090"一词...

大模型实践总结

zz12345600354的博客

06-14

1157

随着ChatGPT的迅速出圈，加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练。

深度学习用什么显卡？3060显卡适合深度学习吗？

热门推荐

gu1857035894的博客

05-31

3万+

深度学习用什么显卡?3060显卡适合深度学习吗?都知道深度学习很吃显卡，显存越大，可以缓存的内容就越多。对于非常吃显存的图像类深度学习程序来说，显存太小的显卡批处理就不能调太大，否则会程序会报错。......

RTX3090环境安装及性能测试体验

donruo的博客

07-12

1428

最近公司需要自己组装3090显卡，记录一下装机踩的坑。首先安装Ubantu20.04，进入系统后有配置显卡所需环境有几个需要注意的地方：一、网络设置机器没有无线网卡只能使用usb共享手机热点联网；需要买外接网卡 chrome浏览器安装 wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb sudo dpkg -i google-chrome-stable_current_amd64.

深度学习显卡性能对比与选购，性能对比和性价比对比

weixin_55035144的博客

05-08

3985

省流：个人拿来使用。跑大语言模型就4090，便宜点就3090或3090ti。不跑大语言模型就4070ti，因为有12g显存，再便宜点就2080ti，因为有11g显存，再便宜点就3060，因为有12g显存。

RTX 3090的深度学习环境配置指南：Pytorch、TensorFlow、Keras

Kaiyuan_sjtu的博客

05-23

1564

作者丨Yukyin整理丨极市平台笔者中山大学研究生，医学生+计科学生的集合体，机器学习爱好者。最近刚入了3090，发现网上写的各种环境配置相当混乱而且速度很慢。所以自己测了下速度最快的3...

rtx3090 pytorch_RTX3090首发评测：很强，可是......

weixin_39578899的博客

10-30

557

3090发布的时候，大家都很激动，我也是迫不及待的想买一张RTX3090通过某神秘商家的偷跑，我在9月18日就拿到了一张RTX3090，它是来自影驰的RTX3090大将。这应该是知乎首发的个人用户评测，我没有任何品牌立场，没有收到任何品牌的资助，也没有与NVIDIA签署过NDA，但是我还是等到了解禁后大家一起发。不出意外的话，这张卡采用了纯公版的PCB设计，是一张公版换皮卡。先给大家看一下GPUZ...

Windows RTX3090 配置Pytorch/Tensorflow CUDA 教程

qq_41527288的博客

11-30

2574

Pytorch/Tensorflow保姆级CUDA配置教程，看这一篇就够了！

RTX NVIDIA 3090卡配置对应pytorch，CUDA版本，NVIDIA驱动过程及问题整理

lijunweiyhn的博客

09-20

7122

RTX NVIDIA 3090卡配置对应pytorch，CUDA版本（11.8或则12.2），NVIDIA驱动过程及问题整理

rtx4070sdeepseek

02-10

### RTX 4070S 对于 DeepSeek 的支持与性能评估 #### 显卡特性概述 NVIDIA GeForce RTX 4070S 是一款基于 Ada Lovelace 架构的高性能图形处理单元 (GPU)，具备强大的计算能力和先进的硬件加速功能。这款 GPU 配备了第三代 Tensor Cores 和第二代 RT Cores，这使得它在执行复杂的机器学习任务时表现出色。 #### DeepSeek 推理框架的支持情况 DeepSeek 是一种用于自然语言理解和生成的大规模预训练模型，在本地环境中运行该模型通常需要高效的硬件资源来保障速度和准确性。由于 RTX 4070S 提供了对 PyTorch 等主流深度学习库的良好兼容性以及通过 vLLM、LmDeploy 进行推理加速的能力[^3]，因此可以有效提升 DeepSeek 模型的加载时间和预测效率。 #### 性能评测要点当考虑使用 RTX 4070S 来驱动 DeepSeek 应用程序时，有几个方面值得注意： - **内存容量**：RTX 4070S 拥有较大容量的 GDDR6X 显存，这对于存储大型神经网络参数至关重要。 - **张量核心效能**：得益于改进后的 Tensor Core 设计，可以在 FP16/FP8 数据类型下实现更高的吞吐量，从而加快矩阵运算的速度并减少延迟。 - **光线追踪与 DLSS 技术的应用局限性**：尽管 RTX 4070S 继承了前几代产品的优势——如优秀的光线追踪渲染质量和 DLSS 功能——但对于专注于文本处理而非图像呈现的任务来说，这些特性的价值相对有限[^1]。为了获得最佳实践指导，建议开发者们关注官方文档和技术论坛中的最新案例研究，以便更好地理解如何针对特定应用场景优化配置设置。 ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda" if torch.cuda.is_available() else "cpu" model_name = 'your_deepseek_model' tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name).to(device) def generate_text(prompt): inputs = tokenizer(prompt, return_tensors="pt").input_ids.to(device) outputs = model.generate(inputs, max_length=50, num_return_sequences=1) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result ```