自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

专注于人工智能领域的小何尚

读万卷书, 走万里路。专注于最新最热的技术,读最好最细的文章。

  • 博客(454)
  • 资源 (4)
  • 收藏
  • 关注

原创 (含链接)2024年NVIDIA GPU技术大会开发者合集(专为开发者挑选的合集)

我专门为开发者整理了NVIDIA GPU技术大会上专注技术的内容合集, 希望可以帮助开发者朋友们快速了解NVIDIA的最新技术.

2024-03-17 17:33:25 2099 6

原创 (含代码)利用NVIDIA Triton加速Stable Diffusion XL推理速度

在 NVIDIA AI 推理平台上部署 SDXL 可为企业提供可扩展、可靠且经济高效的解决方案。TensorRT 和 Triton 推理服务器都可以释放性能并简化生产就绪部署,并作为的一部分包含在 Google Cloud Marketplace 上。AI Enterprise 提供 NVIDIA 支持服务以及支持 AI 推理的开源容器和框架的企业级稳定性、安全性和可管理性。企业开发人员还可以选择使用(视觉内容定制生成 AI 的代工厂)来训练、微调、优化和推断扩散基础模型。

2024-03-13 13:00:53 1632

原创 (含代码)利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍

在生成式人工智能时代,拥有优先考虑易用性的推理解决方案至关重要。借助 NVIDIA TensorRT,您可以通过其专有的 8 位量化技术无缝实现高达 2 倍的推理速度加速,同时确保图像质量不受影响,从而实现卓越的用户体验。TensorRT 对平衡速度和质量的承诺凸显了其作为加速 AI 应用程序的领先选择的地位,使您能够轻松交付尖端解决方案。

2024-03-13 12:25:52 1848 7

原创 NVIDIA Chat With RTX安装使用教程

世界各地每天有数百万人使用聊天机器人,由基于 NVIDIA GPU 的云服务器提供支持。现在,这些突破性工具即将登陆由 NVIDIA RTX 提供支持的 Windows PC,以实现本地、快速、自定义的生成 AI。Chat with RTX 是一个技术演示,现已免费下载,可让用户使用自己的内容个性化聊天机器人,并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本(具有至少 8GB 显存和 VRAM)加速。

2024-02-23 05:16:12 8126 19

原创 利用CUDA加速卷积计算:原理、实践与示例代码

引言在深度学习领域,卷积神经网络(Convolutional Neural Networks,CNN)是目前最流行和有效的模型之一。然而,随着模型复杂度的增加,卷积计算的计算量也随之增加,这使得在CPU上进行卷积计算变得非常耗时。因此,利用CUDA加速卷积计算成为了一个热门话题。在本文中,我们将详细介绍如何利用CUDA加速卷积计算,包括原理、实践和示例代码,帮助您更好地理解和应用CUDA加速技术。

2024-06-18 07:56:19 734

原创 什么是生成式人工智能?

生成式人工智能使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型或其他类型的数据。

2024-06-17 09:48:25 698

原创 揭秘万亿参数大型语言模型的 AI 推理部署

AI 正在改变每个行业,解决人类面临的重大科学挑战,例如精准药物发现和自动驾驶汽车的开发,以及为了解决商业问题,自动创建电子商务产品描述和从法律合同中提取见解。如今,每家企业都在探索大型语言模型 (LLM) 创造竞争优势的潜力。NVIDIA Cloud 合作伙伴正在介入,支持企业的 AI 之旅。例如,NexGen Cloud 为其客户提供了通过其按需云平台 Hyperstack 运行概念验证 (PoC) 的机会,然后再承诺签订大规模超级云合同。

2024-06-17 08:00:00 591

原创 使用 NVIDIA NIM 部署生成式 AI 的简单指南

无论您是在本地还是在云端工作,NVIDIA NIM 推理微服务都可以为企业开发人员提供来自社区、合作伙伴和 NVIDIA 的易于部署的优化 AI 模型。作为 NVIDIA AI Enterprise 的一部分,NIM 提供了一条安全、简化的前进道路,可快速迭代并为世界一流的生成式 AI 解决方案构建创新。使用单个优化容器,您可以在 5 分钟内轻松在云端或数据中心的加速 NVIDIA GPU 系统上,或在工作站和 PC 上部署 NIM。

2024-06-05 08:35:54 782

原创 NVIDIA JetPack 6.0(现已正式发布)

NVIDIA JetPack SDK 为 NVIDIA Jetson 模块提供支持,为构建端到端加速 AI 应用程序提供全面的解决方案。JetPack 6 通过微服务和一系列新功能扩展了 Jetson 平台的灵活性和可扩展性。它是 2024 年下载次数最多的 JetPack 版本。随着 JetPack 6.0 生产版本的普遍可用,开发人员可以放心地将这些新功能带入最先进的嵌入式 AI 和机器人应用程序。这篇文章重点介绍了主要功能和新的 AI 工作流程。

2024-06-05 08:23:18 734

原创 NVIDIA 与 Hugging Face 合作简化生成式 AI 模型部署

随着生成式 AI 的快速发展,社区已采取两种重要方式来促进这种扩展:迅速发布最先进的基础模型,并简化它们与应用程序开发和生产的集成。NVIDIA 通过优化基础模型来提高性能,帮助企业更快地生成代币,降低运行模型的成本,并通过 NVIDIA NIM 改善最终用户体验,从而为这一努力提供帮助。

2024-06-04 09:39:17 298

原创 使用新的 NVIDIA Isaac Foundation 模型和工作流程创建、设计和部署机器人应用程序

机器人技术的应用正在智能制造设施、商业厨房、医院、仓库物流和农业领域等各种环境中迅速扩展。该行业正在转向智能自动化,这需要增强机器人功能,以执行感知、绘图、导航、负载处理、物体抓取和复杂的装配任务等功能。人工智能在这一演变中发挥着关键作用,提高了机器人的性能。通过集成 NVIDIA AI 加速,机器人可以更精确、更高效地处理复杂任务,在各种应用中充分发挥其潜力。在 COMPUTEX 上,我们宣布了多项新功能,以帮助机器人专家和工程师构建智能机器人。

2024-06-04 09:27:04 637

原创 NVIDIA NIM推理微服务集成6款新模型

得益于不断涌现的突破性基础模型,生成式 AI 正在彻底改变各行各业的几乎所有用例。这些模型能够理解背景和原因,从而生成高质量的内容和高精度答案。NVIDIA 不断优化和发布新的模型。本文将为您介绍最近更新的六个模型, 涵盖了对话, 视觉, 编程和医疗等领域

2024-06-03 12:08:18 1845 6

原创 大型语言模型简介

大型语言模型主要代表一类称为transformer网络的深度学习架构。transformer模型是一种神经网络,它通过跟踪顺序数据中的关系(例如本句中的单词)来学习上下文和含义。transformer由多个transformer块(也称为层)组成。例如,transformer具有自注意力层、前馈层和规范化层,它们共同作用以解密输入以预测推理时的输出流。这些层可以堆叠在一起以形成更深的transformer和强大的语言模型。

2024-06-03 08:37:12 819

原创 什么是Vector Database(向量数据库)?

嵌入模型将各种数据(例如文本、图像、图表和视频)转换为数字向量,从而在多维向量空间中捕捉其含义和细微差别。嵌入技术的选择取决于应用需求,平衡语义深度、计算效率、要编码的数据类型和维数等因素。将向量映射到多维空间可以对向量的语义相似性进行细致入微的分析,从而显著提高搜索和数据分类的准确性。嵌入模型在使用 AI 聊天机器人、大型语言模型 (LLM) 和带有向量数据库的检索增强生成 (RAG) 的 AI 应用中起着至关重要的作用,以及搜索引擎和许多其他用例。

2024-06-03 08:26:49 877

原创 Meta Llama 3 性能提升与推理服务部署

我们很高兴地宣布 NVIDIA支持 Meta Llama 3 系列模型,从而加速和优化您的 LLM 推理性能。您可以通过浏览器用户界面立即试用和(该系列中的首款型号)。或者,通过在中完全加速的 NVIDIA 堆栈上运行的 API 端点,其中 Llama 3 被打包为,具有可部署在任何地方的标准 API。大型语言模型是计算密集型的。它们的尺寸使得它们昂贵且运行缓慢,尤其是在没有正确的技术的情况下。

2024-04-28 18:15:31 1544 3

原创 大语言模型技术中的推理优化

堆叠 Transformer 层来创建大型模型可以带来更好的准确性、少样本学习能力,甚至在各种语言任务上具有接近人类的涌现能力。这些基础模型的训练成本很高,并且在推理过程中可能会占用大量内存和计算资源(经常性成本)。当今最流行的大型语言模型 (LLM) 的参数大小可以达到数百到数千亿,并且根据用例,可能需要摄取长输入(或上下文),这也会增加费用。这篇文章讨论了LLM推理中最紧迫的挑战,以及一些实用的解决方案。读者应该对 Transformer 架构和一般的注意力机制有基本的了解。

2024-04-22 09:21:21 1368 1

原创 使用 OpenUSD、MaterialX 和 OpenPBR 解锁虚拟世界的无缝材质交换

为了描述计算机图形学中的材质,我们使用着色器,它们是渲染器运行来构造材质定义的程序。着色器必须告诉渲染器材质的结构如何,查看构成其表面外观各层的双向散射分布函数 (BSDF) 以及光线如何在它们之间传输。然后,它描述了如何在对象表面修改 BSDF,通常是通过读取和组合纹理来改变表面外观。有许多不同的语言可以编写这些程序,并且不同的渲染器对它们的支持也不同。例如,许多离线渲染器允许直接在 C++ 中针对其 API 编写着色器,这意味着它们不能与其他渲染器互操作。

2024-04-22 09:19:56 952

原创 图搜索算法详解

图搜索算法是指在图结构中寻找从起点到终点的路径的算法。图结构是一种非线性数据结构,由节点和边组成,其中节点表示数据实体,边表示节点之间的关系。图搜索算法的目的是找到从起点到终点的最优路径,使得搜索过程更加高效、准确。

2024-04-21 18:53:28 1579

原创 GPU异构内存管理

HMM 通过消除对在常见的基于 PCIe(通常是 x86)计算机上运行的 GPU 程序的显式内存管理的需要,简化了编程模型。程序员可以直接使用 malloc、C++ new 和 mmap 调用,就像他们在 CPU 编程中所做的那样。HMM 通过在 CUDA 程序中安全地使用各种标准编程语言功能,进一步提高程序员的工作效率。无需担心意外地将系统分配的内存暴露给 CUDA 内核。HMM 可实现与新的 NVIDIA Grace Hopper Superchip 和类似机器之间的无缝过渡。

2024-04-21 18:46:26 671

原创 stable diffusion本地部署教程

本教程指导您如何在本地部署Stable Diffusion,以便您可以在自己的计算机上运行该模型。通过优化性能和解决常见问题,您可以生成高质量的图像。

2024-04-20 22:23:16 995 2

原创 LLaMA3-70B: Meta AI 的最新自然语言处理模型

LLaMA-70B 是一个大规模语言模型,由 Meta AI 的研究团队使用大量文本数据训练而成。该模型基于 transformer 结构,具有70亿个参数,是目前最大的语言模型之一。LLaMA-70B 能够处理长文本输入,生成高质量的文本输出,并且能够回答问题、生成文章、对话等多种任务。LLaMA-70B 的名称来自于“Large Language Model Application”,它是一个通用的语言模型,可以应用于多种自然语言处理任务。

2024-04-20 10:53:25 2626

原创 Stable Diffusion v3.0 api使用教程

今天Stable Diffusion v3.0的api终于可以使用, 效果真的出奇的好.我这里测试了下给予Python环境的调用, 效果也是非常的好.

2024-04-19 08:30:00 1070

原创 使用联邦学习以增强 LLM 性能

在不断发展的大型语言模型 (LLM) 领域,有效的数据管理是一个关键挑战。数据是模型性能的核心。虽然大多数先进的机器学习算法都是以数据为中心的,但必要的数据并不总是集中的。这是由于多种因素造成的,例如隐私、监管、地缘政治、版权问题以及移动大量数据集所需的巨大努力。本文探讨了 NVIDIA FLARE 支持的联邦学习 (FL) 如何通过简单且可扩展的集成来应对这些挑战。这些功能可以对LLM进行有监督的微调和参数高效的微调,以提高其准确性和稳健性。

2024-04-19 08:30:00 875

原创 nvidia-smi详解

大多数用户都知道如何检查他们的 CPU 的状态,查看有多少系统内存可用,或者找出有多少磁盘空间可用。相比之下,从历史上看,密切关注 GPU 的运行状况和状态一直比较困难。如果您不知道去哪里寻找,甚至可能难以确定系统中 GPU 的类型和功能。值得庆幸的是,NVIDIA 最新的硬件和软件工具在这方面做出了很好的改进。该工具是 NVIDIA 的系统管理接口 (nvidia-smi)。根据您卡的代号,可以收集不同级别的信息。此外,可以启用和禁用 GPU 配置选项(例如 ECC 内存功能)。

2024-04-18 10:20:55 1788

原创 使用 GPU 加速的 nvImageCodec 推进医学图像解码

本文深入探讨了使用 nvJPEG2000 库在 AWS HealthImaging 中解码 DICOM 医学图像的功能。我们将引导您了解图像解码的复杂性,向您介绍 AWS HealthImaging,并探索 GPU 加速解码解决方案带来的进步。通过 GPU 加速的 nvJPEG2000 库开始在 AWS HealthImaging 中提高吞吐量并降低解读医学图像的成本,这代表着云环境中运营效率的重大进步。这些创新有望节省大量成本,预计此类工作负载的潜在成本削减总计达数亿美元。

2024-04-18 09:58:48 865

原创 在生产中监控机器学习模型的指南

机器学习模型越来越多地用于做出重要的现实世界决策,从识别欺诈活动到在汽车中应用自动刹车。一旦将模型部署到生产环境中,机器学习从业者的工作就远未结束。您必须监控您的模型,以确保它们在面对现实世界的活动时继续按预期执行。但是,像使用传统软件那样监视机器学习系统是不够的。那么,如何有效监控生产中的机器学习模型呢?需要监控哪些具体指标?什么工具最有效?这篇文章将为机器学习从业者回答这些关键问题。

2024-04-17 08:30:00 2071

原创 使用 cuNumeric加速 Python 应用程序

这篇文章介绍了 cuNumeric,它是基于 Legion 编程系统的 NumPy 的替代品。它透明地加速 NumPy 程序并将其分发到任何规模和功能的机器,通常是通过更改单个模块导入语句。cuNumeric 通过将 NumPy 应用程序接口转换为 Legate 编程模型并利用 Legion 运行时的性能和可扩展性来实现这一点。

2024-04-17 08:30:00 640

原创 归并排序详解(附代码)

数据科学家每天都在处理算法。然而,数据科学学科作为一个整体已经发展成为一个不涉及复杂算法实现的角色。尽管如此,从业者仍然可以从建立对算法的理解和知识库中受益。在本文中,对排序算法归并排序进行了介绍、解释、评估和实现。这篇文章的目的是为您提供有关合并排序算法的可靠背景信息,这些信息可以作为更复杂算法的基础知识。尽管归并排序被认为并不复杂,但了解该算法将帮助您认识到在选择最有效的算法来执行与数据相关的任务时应考虑哪些因素。

2024-04-16 11:04:04 380

原创 深入详解GRACE CPU架构

NVIDIA Grace CPU 是 NVIDIA 开发的第一款数据中心 CPU。通过将 NVIDIA 专业知识与 Arm 处理器、片上结构、片上系统 (SoC) 设计和弹性高带宽低功耗内存技术相结合,NVIDIA Grace CPU 从头开始构建,以创建用于计算。超级芯片的核心是,它允许 NVIDIA Grace CPU 以 900 GB/s 的双向带宽与超级芯片中的另一个 NVIDIA Grace CPU 或进行通信。

2024-04-16 11:02:53 840

原创 CUDA独立上下文模块加载

大多数 CUDA 开发人员都熟悉 cuModuleLoad API 及其对应项,用于将包含设备代码的模块加载到 CUDA 上下文中。在大多数情况下,您希望在所有设备上加载相同的设备代码。这需要将设备代码显式加载到每个 CUDA 上下文中。此外,不控制上下文创建和销毁的库和框架必须跟踪它们以显式加载和卸载模块。这篇文章讨论了 CUDA 12.0 中引入的上下文独立加载,它解决了这些问题。

2024-04-15 11:01:49 1035

原创 什么是DPU

行业标准、高性能、软件可编程多核 CPU高性能网络接口灵活和可编程的加速引擎。

2024-04-15 11:00:47 944

原创 TensorRT中的INT 8 优化

深度学习 (DL) 模型的训练阶段包括学习大量密集的浮点权重矩阵,这导致推理过程中需要进行大量的浮点计算。研究表明,可以通过强制某些权重为零来跳过其中许多计算,而对最终精度的影响很小。与此同时,之前的帖子表明较低的精度(例如 INT8)通常足以在推理过程中获得与 FP32 相似的精度。稀疏性和量化是流行的优化技术,用于解决这些问题,缩短推理时间并减少内存占用。

2024-04-12 09:15:22 394

原创 一行代码加速Pytorch推理速度6倍

PyTorch 有一个名为 PyTorch Hub 的模型存储库,它是常见模型的高质量实现的来源。我们可以从那里获得在 ImageNet 上预训练的 ResNet-50 模型。在本教程中,我们介绍了使用 Torch-TensorRT 为 ResNet-50 模型编译 TorchScript 模型的完整过程,并测试了优化对性能的影响。使用 Torch-TensorRT,我们在 NVIDIA V100 GPU 上观察到 FP32 的加速为1.42x,FP16 的加速为5.4x。

2024-04-12 09:11:12 803

原创 大型语言模型有什么用?

大型语言模型识别、总结、翻译、预测、生成文本和其他内容。AI 应用程序正在总结文章、撰写故事和进行长时间对话——而大型语言模型正在承担繁重的工作。大型语言模型或 LLM 是一种深度学习算法,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。大型语言模型是 Transformer 模型最成功的应用之一。它们不仅用于教授 AI 人类语言,还用于理解蛋白质、编写软件代码等等。

2024-04-11 11:19:41 1763

原创 我的两年创作纪念日

在这两年里, 不知不觉间一共完成了400多篇博客, 其实也不知道哪里来的动力, 我想这慢慢的成为了自己的一种习惯.后来我就想把工作中用到的开发者手册和指南整理翻译, 希望帮到更多的中国的开发者能更快更好的了解最新的AI技术.我的工作呢, 是我司的开发者社区, 目的就是帮助中国的开发者更好地了解GPU和更好的利用GPU开发.我呢, 是做高性能计算和人工智能开发的一个程序员.最开始呢, 就是想记录下工作中的内容.希望继续坚持下去, 希望看到我的博客能帮助更多的朋友。

2024-04-11 11:14:51 292

原创 什么是图神经网络?

图神经网络将深度学习的预测能力应用于丰富的数据结构,这些数据结构将对象及其关系描述为图中由线连接的点。在 GNN 中,数据点称为节点,它们由线(称为边)连接,元素以数学方式表示,因此机器学习算法可以在节点、边或整个图的级别做出有用的预测。

2024-04-10 09:29:34 876

原创 多模态检索增强生成的简单介绍

如果(RAG) 应用程序可以处理多种数据类型(表格、图形、图表和图表)而不仅仅是文本,那么它的实用性就会呈指数级增长。这需要一个能够通过连贯地解释文本、视觉和其他形式的信息来理解并生成响应的框架。在这篇文章中,我们讨论了应对多种模式和方法来构建多模式 RAG 管道的挑战。为了使讨论简洁,我们只关注两种模式:图像和文本。

2024-04-10 09:28:13 851

原创 多模态检索增强生成的简单介绍

如果(RAG) 应用程序可以处理多种数据类型(表格、图形、图表和图表)而不仅仅是文本,那么它的实用性就会呈指数级增长。这需要一个能够通过连贯地解释文本、视觉和其他形式的信息来理解并生成响应的框架。在这篇文章中,我们讨论了应对多种模式和方法来构建多模式 RAG 管道的挑战。为了使讨论简洁,我们只关注两种模式:图像和文本。

2024-04-09 08:40:54 747

原创 NVIDIA NIM 提供优化的推理微服务以大规模部署 AI 模型

生成式人工智能的采用率显着上升。在 2022 年 OpenAI ChatGPT 推出的推动下,这项新技术在几个月内就积累了超过 1 亿用户,并推动了几乎所有行业的开发活动激增。到 2023 年,开发人员开始使用来自 Meta、Mistral、Stability 等的 API 和开源社区模型进行 POC。进入 2024 年,组织将重点转向全面生产部署,其中涉及将 AI 模型连接到现有企业基础设施、优化系统延迟和吞吐量、日志记录、监控和安全性等。

2024-04-09 08:39:19 1171

原创 为什么数据增强很重要

深度学习模型需要数百 GB 的数据才能很好地概括未见过的样本。数据扩充有助于增加数据集中示例的可变性。当数据增强的选择依赖于设置模型训练的工程师的领域知识、技能和直觉时,传统的数据增强方法可以追溯到统计学习。出现了自动增强以减少对手动数据预处理的依赖。它结合了应用自动调整和根据概率分布随机选择增强的想法。事实证明,使用自动数据增强方法(例如 AutoAugment 和 RandAugment)可以通过使模型在训练中看到的样本多样化来提高模型的准确性。

2024-04-08 08:30:00 893

利用SSD网络进行车牌检测模型训练

利用SSD网络进行车牌检测模型训练

2022-12-25

Pytorch 1.11 Jetpack 5.0 python 3.8

Pytorch 1.11 Jetpack 5.0 python 3.8

2022-05-27

第六届Sky Hackathon知识图谱

本内容包含NVIDIA 开发者社区第六届Sky Hackathon的相关内容: * 配置环境 * 数据下载 * 预训练模型 * 执行脚本

2022-05-21

人脸口罩检测(含运行代码+数据集)

本教程目的为让开发者了解深度学习中的完整流程,这包括:** 1.数据集导入及预处理流程 2.网络模型选择及参数设置流程 3.模型训练及导出流程 4.模型加载/优化并得出推断结果 本教程采用了以下主要的软硬件环境:** 1.NVIDIA Xavier NX 2.Jetpack 4.6 3.TensorRT 8.0.1 4.Pytorch 1.10.0 5.Python 3.6.9 6.Opencv 4.1.1

2022-05-13

cuda 中文手册

cuda api 所有函数实现以及使用方法 cuda初学者必备

2012-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除