RTX 4060 laptop GPU安装Pointnet2, 并运行Votenet

参考来源:

RTX3080复现基于VoteNet的焊接平板识别网络PanelNeticon-default.png?t=N7T8https://blog.csdn.net/astruggler/article/details/128134746

pointnet2.pytorch(pointnet++)运行 python setup.py install 相关报错解决办法icon-default.png?t=N7T8https://blog.csdn.net/qq_40642345/article/details/122052369

fatal error: cuda_runtime_api.h: No such file or directoryicon-default.png?t=N7T8https://blog.csdn.net/qq_39031960/article/details/106211695

前言:

主要的流程其实参考的三篇blog以及十分清晰了,一下我将复盘我的环境安装过程。

配置:

        CPU: Intel 13900H

        GPU: Nvidia 4060 Laptop

        python版本: Python3.6.13

        CUDA版本: CUDA11.0

        cuDNN版本: cuDNN8.0.5

        VS 2017

安装步骤:

CUDA和cuDNN安装

        CUDA11.0 

        cuDNN8.0.5 for CUDA11.0

        安装过程不再赘述

VS 2017安装

        安装C++有关工具就行

        (VS 2017之后的版本会报错)

Anaconda操作

        默认以及安装了Anaconda,在命令行键入以下命令,网卡的话可以使用清华源。

conda create -n 环境名称 python=3.6
conda activate 环境名称

pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html
pip install matplotlib opencv-python plyfile 'trimesh>=2.35.39,<2.35.40' 'networkx>=2.2,<2.3'

        作者在开源代码里面有提到要安装tensorflow,但如果不使用tensorboard的话可以在train.py里注释掉,后面会提到。

修改一下代码

        原作者的开发环境实在CUDA10.x,但是也因为现在使用的是40x显卡,必须要CUDA11以上版本,所以要做出些修改。

        在pointnet2/setup.py修改为:

        (第六行后半部分应该修改为你自己的cuda的include绝对地址)

import os
from setuptools import setup
from torch.utils.cpp_extension import BuildExtension, CUDAExtension
import glob

include_dirs = [os.path.realpath('../include'), 'C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v11.0/include']
# 应该修改为你自己的cuda的include绝对地址

_ext_src_root = "_ext_src"
_ext_sources = glob.glob("{}/src/*.cpp".format(_ext_src_root)) + glob.glob(
    "{}/src/*.cu".format(_ext_src_root)
)
_ext_headers = glob.glob("{}/include/*".format(_ext_src_root))

setup(
    name='pointnet2',
    ext_modules=[
        CUDAExtension(
            name='pointnet2._ext',
            sources=_ext_sources,
            include_dirs=include_dirs,
            extra_compile_args={
                "cxx": ["-O2", "-I{}".format("{}/include".format(_ext_src_root))],
                "nvcc": ["-O2", "-I{}".format("{}/include".format(_ext_src_root))],
            },
        )
    ],
    cmdclass={
        'build_ext': BuildExtension
    }
)

环境变量

        在环境变量的系统变量里,新建,名称为TORCH_CUDA_ARCH_LIST,值为8.0(不要带引号)

pointnet2安装

cd pointnet2
python setup.py install

        会出现一大堆warnin,不过没关系,最终结果应该是这样:

        到这一步就安装完成了!

其他改动

        不使用tensorflow的问题,将train.py文件的第39,209,210,262,263,306,307注释掉即可。

后记

希望下次可以顺利的安装环境。

### RTX 4060 Laptop GPU 8GB 显存支持的最大 DeepSeek 模型大小 对于 NVIDIA GeForce RTX 4060 Laptop GPU 的 CUDA 能力不兼容问题已经有所提及[^1]。然而,关于该GPU能否支持特定大小的 DeepSeek 模型,则取决于多个因素。 #### 影响模型加载的因素 - **显存容量**:RTX 4060 Laptop 配备有8GB GDDR6 显存,在理论上可以容纳较大规模的神经网络参数。 - **优化技术的应用**:通过混合精度训练(FP16)、梯度累积、分布式训练等方式可以在一定程度上降低单次前向传播所需的内存占用量。 考虑到上述情况以及实际应用中的经验数据,通常情况下: - 对于标准版本的BERT-base (约110M 参数),即使不做任何特别处理也能够在8GB VRAM 上顺利运行。 - 更大型的语言模型如DeepSeek可能具有更多层数和更宽广隐藏层维度,具体能承载多大尺寸还需视乎其架构设计而定;不过一般而言,如果采用全精度浮点数(FP32)运算模式下,大约可支撑起至 RoBERTa-large 类似级别的预训练权重文件(~350MB)[^3]。 为了确保最佳性能充分利用硬件资源,建议采取以下措施之一来尝试加载更大的模型: - 使用半精度张量(`torch.float16`)代替默认设置; - 实施激活检查点机制以减少中间状态保存所消耗的空间; - 利用 Nvidia Apex 库提供的工具进一步提升效率。 ```python import torch from transformers import AutoModelForSequenceClassification model_name = 'your_deepseek_model' device = "cuda" if torch.cuda.is_available() else "cpu" # 半精度推理加速 with torch.autocast(device_type=device, dtype=torch.float16): model = AutoModelForSequenceClassification.from_pretrained(model_name).to(device) print(f'Model loaded successfully on {device}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值