- 博客(348)
- 资源 (4)
- 收藏
- 关注

原创 第八届SkyHackathon环境配置及问答指南
如果同学们在配置环境过程中遇到任何问题, 请在上面的对应的博客下面留言. 这样如果其他同学遇到相同问题, 也可参考你的答案.其中上述第一和第二步需要参赛的同学在自己的设备上搭建环境, 第三步不需要同学们配置环境。如果需要贴图, 请将问题单独写成博客, 然后把连接附在留言区, 说明您的问题.同学们可以参考上面的连接中的博客, 在自己的设别上搭建开发环境.我们的指导老师会在留言区, 专门负责解答同学们的问题.
2023-05-12 10:59:57
1635
7

原创 一行代码加速Pytorch推理速度6倍
PyTorch 有一个名为 PyTorch Hub 的模型存储库,它是常见模型的高质量实现的来源。我们可以从那里获得在 ImageNet 上预训练的 ResNet-50 模型。在本教程中,我们介绍了使用 Torch-TensorRT 为 ResNet-50 模型编译 TorchScript 模型的完整过程,并测试了优化对性能的影响。使用 Torch-TensorRT,我们在 NVIDIA V100 GPU 上观察到 FP32 的加速为1.42x,FP16 的加速为5.4x。
2023-01-16 11:50:21
5890
20

原创 车牌识别应用搭建(含模型和源码)
本示例旨在展示如何在 DeepStream SDK 版本不低于 5.0.1 的情况下使用分级模型进行检测和分类。本例中的模型均为TAO3.0模型。TAO 3.0 LPD和LPR模型以及TAO训练的更多细节,请参考。
2023-01-05 17:22:24
1888
13

原创 车牌检测模型训练(含源码和数据集)
本教程利用NVIDIA TAO进行车牌检测模型的训练:1. 模型框架:SSD2. 数据集: CRPD, 连接:https://github.com/yxgong0/CRPD3. 训练框架: NVIDIA TAO, 安装教程连接: https://docs.nvidia.com/tao/tao-toolkit/text/tao_toolkit_quick_start_guide.html#tao-toolkit-package-content4. 预训练模型: 可从NGC下载
2022-12-25 10:23:29
1108
6

原创 人脸口罩检测(含运行代码+数据集)Pytorch+TensorRT+Xavier NX
人脸口罩检测(含运行代码+数据集)本教程目的为让开发者了解深度学习中的完整流程,这包括:1.数据集导入及预处理流程2.网络模型选择及参数设置流程3.模型训练及导出流程4.模型加载/优化并得出推断结果项目源码以及数据集下载:https://download.csdn.net/download/kunhe0512/85360655本教程采用了以下主要的软硬件环境:1.NVIDIA Xavier NX2.Jetpack 4.63.TensorRT 8.0.14.Pytorch 1
2022-05-13 11:47:15
10353
56
原创 Omniverse Replicator环境配置和使用说明
本教程将介绍Omniverse Replicator的环境配置和使用说明, 参加Sky Hackathon的同学可以参考本教程来合成训练数据集.
2023-05-11 14:22:17
1486
3
原创 使用CV-CUDA提高基于计算机视觉的任务吞吐量
涉及基于 AI 的计算机视觉的实时云规模应用程序正在迅速增长。用例包括图像理解、内容创建、内容审核、映射、推荐系统和视频会议。然而,由于对处理复杂性的需求增加,这些工作负载的计算成本也在增长。从静止图像到视频的转变现在也正在成为消费者互联网流量的主要组成部分。鉴于这些趋势,迫切需要构建高性能但具有成本效益的计算机视觉工作负载。基于 AI 的计算机视觉流程通常涉及围绕 AI 推理模型的数据预处理和后处理步骤,这可能占整个工作负载的 50-80%。
2023-05-11 10:37:29
1071
2
原创 NVIDIA Tao Toolkit环境配置
此文档用于NVIDIA Developer Community第八届Sky Hackathon训练服务器端环境配置。
2023-05-06 16:13:03
1499
4
原创 运行Omniverse Replicator Headlessly
本教程的目的是向您展示如何不费吹灰之力地使用 Replicator。Headless 在这种情况下意味着计算设备没有显示器或外围设备,例如键盘和鼠标。为了做到这一点,我们将对 Replicator 的中解释的脚本进行轻微修改,以使其工作。鼓励首先阅读该教程以了解 Replicator 的基础知识。
2023-04-19 20:36:07
445
1
原创 Omniverse Replicator的Camera示例
本教程的目的是提供 Omniverse Replicator 中相机常见用例的示例。以下是使用 Replicator API 在场景中应用相机使用的几个示例。
2023-04-18 10:35:33
177
2
原创 Omniverse Replicator的“Hello World”
本教程的目的是介绍基本的 Omniverse Replicator 功能,例如使用一些预定义的 3D 资产创建一个简单的场景,应用随机化,然后将生成的图像写入磁盘以进行进一步处理。
2023-04-17 09:36:59
477
原创 Omniverse Replicator 入门
Omniverse Replicator 作为 Omniverse Kit 扩展创建,并通过方便地分发。要使用复制器,您需要下载可在找到的 Omniverse 启动器。有关 Omniverse 启动器的更多详细信息,请查看此。使用 Omniverse Replicator 生成合成数据是一个两步过程。第一步将资产带入场景,定义并注册随机化器、注释器和编写器。它还定义了随机发生器执行的事件触发器。在底层,第一步构建 OmniGraph 节点以高效执行这些步骤。
2023-04-16 11:30:38
260
原创 Replicator简介
Omniverse Replicator 是一个高度可扩展的框架,构建在可扩展的 Omniverse 平台上,可生成物理上准确的 3D 合成数据,以加速 AI 感知网络的训练和性能。Omniverse Replicator 为深度学习工程师和研究人员提供了一套工具和工作流程,用于引导模型训练、提高现有模型的性能或开发由于缺乏数据集或所需注释而无法实现的新型模型。它允许用户轻松导入模拟就绪资产以构建上下文感知的 3D 场景,通过创建以前不可用的新型数据集和注释来释放以数据为中心的方法。
2023-04-15 09:39:54
273
原创 什么是量子计算?
量子计算机仍处于起步阶段,正在影响已经在经典计算机上运行的新一代模拟,现在使用 NVIDIA cuQuantum SDK 进行加速
2023-03-09 09:37:35
2066
1
原创 RAN-in-the-Cloud:为 5G RAN 提供云经济性
RAN-in-the-Cloud 是未来。这是无线市场的自然演变和下一步。使用云原生技术构建的 vRAN 是必要的第一步。实现 5G RAN 的云经济并推动 5G 与边缘 AI 应用的共同创新需要拥抱 RAN-in-the-Cloud。NVIDIA Aerial SDK 提供可扩展的云原生软件架构,作为 RAN-in-the-Cloud 的基础技术。最后,需要注意的是,RAN 转型才刚刚开始。使用 AI 来优化复杂的信号处理算法将在未来几年释放出一系列全新的创新。
2023-03-03 10:53:38
2752
6
原创 无需手动编码的XGBoost中的分类特征
我们演示了如何使用 XGBoost 对分类特征的实验支持来改进 XGBoost 在分类数据上的训练和推理体验。分类数据入门使用 cat_in_the_dat 数据集训练 XGBoost我们很高兴听到这项新功能如何让您的生活更轻松。在接下来的几个月中,我们将进行更多工作,帮助您更好地理解基于树的算法的本质,这将在您未来的工作中大有裨益。RAPIDS 团队始终与开源社区合作,以了解和解决新出现的需求。如果您是开源维护者,有兴趣将 GPU 加速引入您的项目,请访问 GitHub 或 Twitter。
2023-03-03 10:50:58
2185
原创 评估Jupyter环境的安全性
Jupyter 生态系统非常强大且可配置,这使其成为对研究人员和开发人员以及威胁参与者具有吸引力的工具。jupysec 可以自动评估 Jupyter 环境的安全性。NVIDIA AI Red Team 将继续研究jupysec 规则中的 Jupyter 安全和编码知识和技术。无论您的 Jupyter 部署是本地的还是托管在云端,都可以使用 pip install jupysec [jupyterlab] 尝试 jupysec。访问 GitHub 上的jupysec,以问题的形式分享您的反馈和贡献。
2023-03-02 08:27:31
329
1
原创 什么是让ChatGPT爆火的大语言模型(LLM)
AI 应用程序正在总结文章、撰写故事和进行长时间对话——而大型语言模型正在承担繁重的工作。大型语言模型或 LLM 是一种深度学习算法,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。大型语言模型是 Transformer 模型最成功的应用之一。 它们不仅用于教授 AI 人类语言,还用于理解蛋白质、编写软件代码等等。
2023-03-02 08:14:51
13323
18
原创 利用 NVIDIATAO 和 Weight&Bias 加速AI开发
利用图像分类、对象检测、和其他形式的 AI 可以推动公司和商业部门内部的大规模转型。然而,从头开始构建人工智能和深度学习模型是一项艰巨的任务。构建这些模型的一个共同先决条件是拥有大量高质量的训练数据和准备数据、构建神经网络以及持续微调模型以优化性能的正确专业知识。对于开始机器学习 (ML) 之旅的组织来说,这通常是一个挑战。尽管 AI 可以提供明确且可衡量的好处,但高准入门槛往往成为各种规模企业采用 AI 的障碍。这篇文章讨论了和平台的结合如何帮助启动组织利用 AI 和加速常见 AI 任务的旅程。
2023-03-01 08:29:18
1352
18
原创 L0到L5自动驾驶的区别
具有某些自主功能的汽车已经出现:现在就来了解接下来会发生什么。自动驾驶汽车不再是科幻小说。今天,您已经可以购买一辆能够在高速公路和平行停车场的高峰时段自动驾驶的汽车。但是,要一辆能做司机的车,还得再等几年。“无人驾驶”革命正在分阶段展开,就像第一批汽车从缓慢的蒸汽动力装置发展到汽油动力汽车,再到现在的全电动汽车。从装有已经在加利福尼亚州高速公路上漫游的服务器机架的原型到可以开出停车场的车辆,实现飞跃的关键是:在更小的空间内投入更多的计算能力。
2023-03-01 08:27:03
2700
11
原创 初步介绍CUDA中的统一内存
我向您介绍了统一内存,它可以非常轻松地分配和访问可由系统中任何处理器、CPU 或 GPU 上运行的代码使用的数据。
2023-02-21 09:39:27
2771
7
原创 (含源码)计算机视觉之前景背景分离
NVIDIA 视觉编程接口 (`VPI: Vision Programming Interface`) 是 NVIDIA 的计算机视觉和图像处理软件库,使您能够实现在 NVIDIA Jetson 嵌入式设备和独立的GPU 上可用的不同硬件后端上加速的算法。
2023-02-21 09:37:32
189
2
原创 (含源码)利用NVIDIA VPI之透视变换
NVIDIA 视觉编程接口 (`VPI: Vision Programming Interface`) 是 NVIDIA 的计算机视觉和图像处理软件库,使您能够实现在 NVIDIA Jetson 嵌入式设备和独立的GPU 上可用的不同硬件后端上加速的算法。
2023-02-20 23:14:00
178
3
原创 NeMo简介
NVIDIA NeMo 是一个用于构建新的最先进的对话式 AI 模型的工具包。 NeMo 有自动语音识别 (ASR)、自然语言处理 (NLP) 和文本到语音 (TTS) 模型的单独集合。 每个集合都包含预构建的模块,其中包括训练数据所需的一切。 每个模块都可以轻松定制、扩展和组合,以创建新的对话式 AI 模型架构。
2023-02-20 23:09:11
210
原创 CUDA性能指南
性能优化围绕四个基本策略:* 最大化并行执行以实现最大利用率;* 优化内存使用,实现最大内存吞吐量;* 优化指令使用,实现最大指令吞吐量;* 尽量减少内存抖动。
2023-02-19 23:35:18
214
1
原创 CUDA硬件实现
NVIDIA GPU 架构围绕可扩展的多线程流式多处理器 (SM: Streaming Multiprocessors) 阵列构建。当主机 CPU 上的 CUDA 程序调用内核网格时,网格的块被枚举并分发到具有可用执行能力的多处理器。一个线程块的线程在一个SM上并发执行,多个线程块可以在一个SM上并发执行。当线程块终止时,新块在空出的SM上启动。
2023-02-19 23:34:36
2851
原创 CUDA编程接口
CUDA C++ 为熟悉 C++ 编程语言的用户提供了一种简单的途径,可以轻松编写由设备执行的程序。它由c++语言的最小扩展集和运行时库组成。
2023-02-18 19:09:56
1022
33
原创 CUDA虚拟内存管理
虚拟内存管理 API为应用程序提供了一种直接管理统一虚拟地址空间的方法,该空间由 CUDA 提供,用于将物理内存映射到 GPU 可访问的虚拟地址。在 CUDA 10.2 中引入的这些 API 还提供了一种与其他进程和图形 API(如 OpenGL 和 Vulkan)进行互操作的新方法,并提供了用户可以调整以适应其应用程序的更新内存属性。
2023-02-18 19:07:15
400
1
原创 CUDA的统一内存
统一内存是 CUDA 编程模型的一个组件,在 CUDA 6.0 中首次引入,它定义了一个托管内存空间,在该空间中所有处理器都可以看到具有公共地址空间的单个连贯内存映像。
2023-02-17 10:11:38
1957
2
原创 TensorRT的命令行程序
规范是从左到右阅读的,后面的会覆盖前面的。选项提供时序缓存文件,则构建器可以从中加载现有的分析数据并在层分析期间添加新的分析数据条目。以显示每层性能配置文件,这使用户可以了解网络中的哪些层在 GPU 执行中花费的时间最多。如果您生成保存的序列化引擎文件,您可以将其拉入另一个运行推理的应用程序中。:指定策略允许使用的工作空间的最大大小,以及 DLA 将分配的每个可加载的内存池的大小。规范是从左到右阅读的,后面的会覆盖前面的。工具有许多选项用于指定输入和输出、性能计时的迭代、允许的精度和其他选项。
2023-02-16 21:52:32
330
原创 TensorRT的C++接口解析
本章说明 C++ API 的基本用法,假设您从 ONNX 模型开始。 [sampleOnnxMNIST](https://github.com/NVIDIA/TensorRT/tree/main/samples/s(rdp.jpg)]本章说明 C++ API 的基本用法,假设您从 ONNX 模型开始。更详细地说明了这个用例。C++ API 可以通过头文件NvInfer.h访问,并且位于nvinfer1命名空间中。TensorRT C++ API 中的接口类以前缀I开头,例如ILoggerIBuilder等。
2023-02-15 10:21:29
842
2
原创 TensorRT的Python接口解析
本章说明 Python API 的基本用法,假设您从 ONNX 模型开始。示例更详细地说明了这个用例。
2023-02-14 10:31:28
286
6
第六届Sky Hackathon知识图谱
2022-05-21
人脸口罩检测(含运行代码+数据集)
2022-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人