扫地的小何尚-CSDN博客

原创 (含链接)2024年NVIDIA GPU技术大会开发者合集(专为开发者挑选的合集)

我专门为开发者整理了NVIDIA GPU技术大会上专注技术的内容合集, 希望可以帮助开发者朋友们快速了解NVIDIA的最新技术.

2024-03-17 17:33:25 2303 6

原创 (含代码)利用NVIDIA Triton加速Stable Diffusion XL推理速度

在 NVIDIA AI 推理平台上部署 SDXL 可为企业提供可扩展、可靠且经济高效的解决方案。TensorRT 和 Triton 推理服务器都可以释放性能并简化生产就绪部署，并作为的一部分包含在 Google Cloud Marketplace 上。AI Enterprise 提供 NVIDIA 支持服务以及支持 AI 推理的开源容器和框架的企业级稳定性、安全性和可管理性。企业开发人员还可以选择使用（视觉内容定制生成 AI 的代工厂）来训练、微调、优化和推断扩散基础模型。

2024-03-13 13:00:53 2030

原创 (含代码)利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍

在生成式人工智能时代，拥有优先考虑易用性的推理解决方案至关重要。借助 NVIDIA TensorRT，您可以通过其专有的 8 位量化技术无缝实现高达 2 倍的推理速度加速，同时确保图像质量不受影响，从而实现卓越的用户体验。TensorRT 对平衡速度和质量的承诺凸显了其作为加速 AI 应用程序的领先选择的地位，使您能够轻松交付尖端解决方案。

2024-03-13 12:25:52 2329 8

原创 NVIDIA Chat With RTX安装使用教程

世界各地每天有数百万人使用聊天机器人，由基于 NVIDIA GPU 的云服务器提供支持。现在，这些突破性工具即将登陆由 NVIDIA RTX 提供支持的 Windows PC，以实现本地、快速、自定义的生成 AI。Chat with RTX 是一个技术演示，现已免费下载，可让用户使用自己的内容个性化聊天机器人，并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本（具有至少 8GB 显存和 VRAM）加速。

2024-02-23 05:16:12 9563 19

原创 162个例子告诉你在NVIDIA开发者社区夏令营能学到什么

NVIDIA开发者社区AI-Agent夏令营作品合集，通过这162个例子，向大家展示了在2024 NVIDIA开发者训练营中开发者朋友们用NVIDIA NIM做了什么样的优秀作品

2024-08-21 09:42:56 2650 2

原创 2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)

2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)

2024-08-04 19:04:22 3445

原创使用新的 NVIDIA Isaac Foundation 模型和工作流程创建、设计和部署机器人应用程序

机器人技术的应用正在智能制造设施、商业厨房、医院、仓库物流和农业领域等各种环境中迅速扩展。该行业正在转向智能自动化，这需要增强机器人功能，以执行感知、绘图、导航、负载处理、物体抓取和复杂的装配任务等功能。人工智能在这一演变中发挥着关键作用，提高了机器人的性能。通过集成 NVIDIA AI 加速，机器人可以更精确、更高效地处理复杂任务，在各种应用中充分发挥其潜力。在 COMPUTEX 上，我们宣布了多项新功能，以帮助机器人专家和工程师构建智能机器人。

2024-07-26 08:48:43 557

原创利用 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服务器提升 Meta Llama 3 性能

我们很高兴地宣布 NVIDIA支持 Meta Llama 3 系列模型，从而加速和优化您的 LLM 推理性能。您可以通过浏览器用户界面立即试用和（该系列中的首款型号）。或者，通过在中完全加速的 NVIDIA 堆栈上运行的 API 端点，其中 Llama 3 被打包为，具有可部署在任何地方的标准 API。大型语言模型是计算密集型的。它们的尺寸使得它们昂贵且运行缓慢，尤其是在没有正确的技术的情况下。

2024-07-26 08:47:10 700

原创什么是LLM智能体

虽然对于 LLM 驱动的智能体没有一个被广泛接受的定义，但它们可以被描述为一个可以使用 LLM 推理问题、制定解决问题的计划并在一系列工具的帮助下执行计划的系统。简而言之，智能体是一个具有复杂推理能力、记忆和执行任务手段的系统。这种能力首先出现在 AutoGPT 或 BabyAGI 等项目中，这些项目无需太多干预即可解决复杂问题。为了更详细地描述智能体，下面是一个 LLM 驱动的智能体应用程序的一般架构（如下图）。智能体核心记忆模块工具规划模块。

2024-07-25 08:07:27 1419

原创为边缘开发由生成式 AI 驱动的视觉 AI 智能体

可视化 AI 智能体由 VLM 提供支持，您可以在其中用自然语言提出广泛的问题，并获得反映录制或直播视频中真实意图和背景的见解。这些智能体可以通过易于使用的 REST API 进行交互，并与其他服务甚至移动应用程序集成。这种新一代可视化 AI 智能体有助于总结场景、创建各种警报并使用自然语言从视频中提取可操作的见解。

2024-07-25 07:49:38 1343 1

原创什么是扩散模型

生成式人工智能，即算法处理各种输入（如文本、图像、音频、视频和代码）并生成新内容的能力，正在以前所未有的速度发展。虽然这项技术正在多个行业取得重大进展，但建筑、工程和施工 (AEC) 行业将从中受益匪浅。

2024-07-24 08:20:11 924

原创 NVIDIA 全面转向开源 GPU 内核模块

为简化起见，我们以表格形式压缩了软件包管理器建议。驱动程序版本 560 和 CUDA Toolkit 12.6 之后的所有版本都将使用这些打包约定。

2024-07-24 07:55:33 1331

原创研讨会预告：NVIDIA 携手西门子共创工业元宇宙未来

在这一合作的基础下，西门子 Xcelerator 平台利用 OpenUSD 的开放性、互操作性和可扩展性，为企业构建工业元宇宙提供了坚实基础。这不仅加速了工业设计和制造流程的数字化，还为企业探索新的商业模式和价值创造路径提供了可能。NVIDIA 的生成式 AI 技术进一步赋能这一过程，推动工业元宇宙的创新实践，引领工业进入一个全新的发展阶段。NVIDIA 的 Omniverse 平台与西门子的深厚工业知识相结合，为工业数字化转型提供了强大的动力。[暂时免费 | 2 学时 | 英文]

2024-07-10 12:57:19 757

原创微软&NVIDIA讲师直播讲解：探索LLM大模型的小型化 —— 小模型在NVIDIA Jetson 与 NIM 平台的最佳实践

在对话式人工智能与大模型技术领域有丰富的实战经验与见解。曾开发法律、金融、保险文档中基于实体抽取的智能问答系统，曾主导开发基于 NLP 知识抽取，KG 知识图谱的建立的科研文档智能检索系统。在当前高速发展的人工智能领域，如何高效的部署和优化 SLM(小型的大模型) 成为关键。随着微软 Phi-3 系列模型的发布，让 SLM在 NVIDIA Jetson 边缘计算平台上的部署成为可能。通过参加本次在线研讨会，您将了解到如何利用这些先进的模型和平台实现生成式 AI 的最佳实践，推动您的 AI 项目更上一层楼。

2024-06-25 09:12:54 975 1

原创利用CUDA加速卷积计算：原理、实践与示例代码

引言在深度学习领域，卷积神经网络（Convolutional Neural Networks，CNN）是目前最流行和有效的模型之一。然而，随着模型复杂度的增加，卷积计算的计算量也随之增加，这使得在CPU上进行卷积计算变得非常耗时。因此，利用CUDA加速卷积计算成为了一个热门话题。在本文中，我们将详细介绍如何利用CUDA加速卷积计算，包括原理、实践和示例代码，帮助您更好地理解和应用CUDA加速技术。

2024-06-18 07:56:19 1118

原创什么是生成式人工智能？

生成式人工智能使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型或其他类型的数据。

2024-06-17 09:48:25 803

原创揭秘万亿参数大型语言模型的 AI 推理部署

AI 正在改变每个行业，解决人类面临的重大科学挑战，例如精准药物发现和自动驾驶汽车的开发，以及为了解决商业问题，自动创建电子商务产品描述和从法律合同中提取见解。如今，每家企业都在探索大型语言模型 (LLM) 创造竞争优势的潜力。NVIDIA Cloud 合作伙伴正在介入，支持企业的 AI 之旅。例如，NexGen Cloud 为其客户提供了通过其按需云平台 Hyperstack 运行概念验证 (PoC) 的机会，然后再承诺签订大规模超级云合同。

2024-06-17 08:00:00 702

原创使用 NVIDIA NIM 部署生成式 AI 的简单指南

无论您是在本地还是在云端工作，NVIDIA NIM 推理微服务都可以为企业开发人员提供来自社区、合作伙伴和 NVIDIA 的易于部署的优化 AI 模型。作为 NVIDIA AI Enterprise 的一部分，NIM 提供了一条安全、简化的前进道路，可快速迭代并为世界一流的生成式 AI 解决方案构建创新。使用单个优化容器，您可以在 5 分钟内轻松在云端或数据中心的加速 NVIDIA GPU 系统上，或在工作站和 PC 上部署 NIM。

2024-06-05 08:35:54 1175

原创 NVIDIA JetPack 6.0（现已正式发布）

NVIDIA JetPack SDK 为 NVIDIA Jetson 模块提供支持，为构建端到端加速 AI 应用程序提供全面的解决方案。JetPack 6 通过微服务和一系列新功能扩展了 Jetson 平台的灵活性和可扩展性。它是 2024 年下载次数最多的 JetPack 版本。随着 JetPack 6.0 生产版本的普遍可用，开发人员可以放心地将这些新功能带入最先进的嵌入式 AI 和机器人应用程序。这篇文章重点介绍了主要功能和新的 AI 工作流程。

2024-06-05 08:23:18 1343

原创 NVIDIA 与 Hugging Face 合作简化生成式 AI 模型部署

随着生成式 AI 的快速发展，社区已采取两种重要方式来促进这种扩展：迅速发布最先进的基础模型，并简化它们与应用程序开发和生产的集成。NVIDIA 通过优化基础模型来提高性能，帮助企业更快地生成代币，降低运行模型的成本，并通过 NVIDIA NIM 改善最终用户体验，从而为这一努力提供帮助。

2024-06-04 09:39:17 354

原创使用新的 NVIDIA Isaac Foundation 模型和工作流程创建、设计和部署机器人应用程序

机器人技术的应用正在智能制造设施、商业厨房、医院、仓库物流和农业领域等各种环境中迅速扩展。该行业正在转向智能自动化，这需要增强机器人功能，以执行感知、绘图、导航、负载处理、物体抓取和复杂的装配任务等功能。人工智能在这一演变中发挥着关键作用，提高了机器人的性能。通过集成 NVIDIA AI 加速，机器人可以更精确、更高效地处理复杂任务，在各种应用中充分发挥其潜力。在 COMPUTEX 上，我们宣布了多项新功能，以帮助机器人专家和工程师构建智能机器人。

2024-06-04 09:27:04 1051

原创 NVIDIA NIM推理微服务集成6款新模型

得益于不断涌现的突破性基础模型，生成式 AI 正在彻底改变各行各业的几乎所有用例。这些模型能够理解背景和原因，从而生成高质量的内容和高精度答案。NVIDIA 不断优化和发布新的模型。本文将为您介绍最近更新的六个模型, 涵盖了对话, 视觉, 编程和医疗等领域

2024-06-03 12:08:18 2048 6

原创大型语言模型简介

大型语言模型主要代表一类称为transformer网络的深度学习架构。transformer模型是一种神经网络，它通过跟踪顺序数据中的关系（例如本句中的单词）来学习上下文和含义。transformer由多个transformer块（也称为层）组成。例如，transformer具有自注意力层、前馈层和规范化层，它们共同作用以解密输入以预测推理时的输出流。这些层可以堆叠在一起以形成更深的transformer和强大的语言模型。

2024-06-03 08:37:12 938

原创什么是Vector Database(向量数据库)？

嵌入模型将各种数据（例如文本、图像、图表和视频）转换为数字向量，从而在多维向量空间中捕捉其含义和细微差别。嵌入技术的选择取决于应用需求，平衡语义深度、计算效率、要编码的数据类型和维数等因素。将向量映射到多维空间可以对向量的语义相似性进行细致入微的分析，从而显著提高搜索和数据分类的准确性。嵌入模型在使用 AI 聊天机器人、大型语言模型 (LLM) 和带有向量数据库的检索增强生成 (RAG) 的 AI 应用中起着至关重要的作用，以及搜索引擎和许多其他用例。

2024-06-03 08:26:49 4697

原创 Meta Llama 3 性能提升与推理服务部署

我们很高兴地宣布 NVIDIA支持 Meta Llama 3 系列模型，从而加速和优化您的 LLM 推理性能。您可以通过浏览器用户界面立即试用和（该系列中的首款型号）。或者，通过在中完全加速的 NVIDIA 堆栈上运行的 API 端点，其中 Llama 3 被打包为，具有可部署在任何地方的标准 API。大型语言模型是计算密集型的。它们的尺寸使得它们昂贵且运行缓慢，尤其是在没有正确的技术的情况下。

2024-04-28 18:15:31 1918 3

原创大语言模型技术中的推理优化

堆叠 Transformer 层来创建大型模型可以带来更好的准确性、少样本学习能力，甚至在各种语言任务上具有接近人类的涌现能力。这些基础模型的训练成本很高，并且在推理过程中可能会占用大量内存和计算资源（经常性成本）。当今最流行的大型语言模型 (LLM) 的参数大小可以达到数百到数千亿，并且根据用例，可能需要摄取长输入（或上下文），这也会增加费用。这篇文章讨论了LLM推理中最紧迫的挑战，以及一些实用的解决方案。读者应该对 Transformer 架构和一般的注意力机制有基本的了解。

2024-04-22 09:21:21 1405 1

原创使用 OpenUSD、MaterialX 和 OpenPBR 解锁虚拟世界的无缝材质交换

为了描述计算机图形学中的材质，我们使用着色器，它们是渲染器运行来构造材质定义的程序。着色器必须告诉渲染器材质的结构如何，查看构成其表面外观各层的双向散射分布函数 (BSDF) 以及光线如何在它们之间传输。然后，它描述了如何在对象表面修改 BSDF，通常是通过读取和组合纹理来改变表面外观。有许多不同的语言可以编写这些程序，并且不同的渲染器对它们的支持也不同。例如，许多离线渲染器允许直接在 C++ 中针对其 API 编写着色器，这意味着它们不能与其他渲染器互操作。

2024-04-22 09:19:56 994

原创图搜索算法详解

图搜索算法是指在图结构中寻找从起点到终点的路径的算法。图结构是一种非线性数据结构，由节点和边组成，其中节点表示数据实体，边表示节点之间的关系。图搜索算法的目的是找到从起点到终点的最优路径，使得搜索过程更加高效、准确。

2024-04-21 18:53:28 1967

原创 GPU异构内存管理

HMM 通过消除对在常见的基于 PCIe（通常是 x86）计算机上运行的 GPU 程序的显式内存管理的需要，简化了编程模型。程序员可以直接使用 malloc、C++ new 和 mmap 调用，就像他们在 CPU 编程中所做的那样。HMM 通过在 CUDA 程序中安全地使用各种标准编程语言功能，进一步提高程序员的工作效率。无需担心意外地将系统分配的内存暴露给 CUDA 内核。HMM 可实现与新的 NVIDIA Grace Hopper Superchip 和类似机器之间的无缝过渡。

2024-04-21 18:46:26 749

原创 stable diffusion本地部署教程

本教程指导您如何在本地部署Stable Diffusion，以便您可以在自己的计算机上运行该模型。通过优化性能和解决常见问题，您可以生成高质量的图像。

2024-04-20 22:23:16 1423 2

原创 LLaMA3-70B： Meta AI 的最新自然语言处理模型

LLaMA-70B 是一个大规模语言模型，由 Meta AI 的研究团队使用大量文本数据训练而成。该模型基于 transformer 结构，具有70亿个参数，是目前最大的语言模型之一。LLaMA-70B 能够处理长文本输入，生成高质量的文本输出，并且能够回答问题、生成文章、对话等多种任务。LLaMA-70B 的名称来自于“Large Language Model Application”，它是一个通用的语言模型，可以应用于多种自然语言处理任务。

2024-04-20 10:53:25 3717

原创 Stable Diffusion v3.0 api使用教程

今天Stable Diffusion v3.0的api终于可以使用, 效果真的出奇的好.我这里测试了下给予Python环境的调用, 效果也是非常的好.

2024-04-19 08:30:00 1692

原创使用联邦学习以增强 LLM 性能

在不断发展的大型语言模型 (LLM) 领域，有效的数据管理是一个关键挑战。数据是模型性能的核心。虽然大多数先进的机器学习算法都是以数据为中心的，但必要的数据并不总是集中的。这是由于多种因素造成的，例如隐私、监管、地缘政治、版权问题以及移动大量数据集所需的巨大努力。本文探讨了 NVIDIA FLARE 支持的联邦学习 (FL) 如何通过简单且可扩展的集成来应对这些挑战。这些功能可以对LLM进行有监督的微调和参数高效的微调，以提高其准确性和稳健性。

2024-04-19 08:30:00 913

原创 nvidia-smi详解

大多数用户都知道如何检查他们的 CPU 的状态，查看有多少系统内存可用，或者找出有多少磁盘空间可用。相比之下，从历史上看，密切关注 GPU 的运行状况和状态一直比较困难。如果您不知道去哪里寻找，甚至可能难以确定系统中 GPU 的类型和功能。值得庆幸的是，NVIDIA 最新的硬件和软件工具在这方面做出了很好的改进。该工具是 NVIDIA 的系统管理接口 (nvidia-smi)。根据您卡的代号，可以收集不同级别的信息。此外，可以启用和禁用 GPU 配置选项（例如 ECC 内存功能）。

2024-04-18 10:20:55 6704

原创使用 GPU 加速的 nvImageCodec 推进医学图像解码

本文深入探讨了使用 nvJPEG2000 库在 AWS HealthImaging 中解码 DICOM 医学图像的功能。我们将引导您了解图像解码的复杂性，向您介绍 AWS HealthImaging，并探索 GPU 加速解码解决方案带来的进步。通过 GPU 加速的 nvJPEG2000 库开始在 AWS HealthImaging 中提高吞吐量并降低解读医学图像的成本，这代表着云环境中运营效率的重大进步。这些创新有望节省大量成本，预计此类工作负载的潜在成本削减总计达数亿美元。

2024-04-18 09:58:48 1053

原创在生产中监控机器学习模型的指南

机器学习模型越来越多地用于做出重要的现实世界决策，从识别欺诈活动到在汽车中应用自动刹车。一旦将模型部署到生产环境中，机器学习从业者的工作就远未结束。您必须监控您的模型，以确保它们在面对现实世界的活动时继续按预期执行。但是，像使用传统软件那样监视机器学习系统是不够的。那么，如何有效监控生产中的机器学习模型呢？需要监控哪些具体指标？什么工具最有效？这篇文章将为机器学习从业者回答这些关键问题。

2024-04-17 08:30:00 2097

原创使用 cuNumeric加速 Python 应用程序

这篇文章介绍了 cuNumeric，它是基于 Legion 编程系统的 NumPy 的替代品。它透明地加速 NumPy 程序并将其分发到任何规模和功能的机器，通常是通过更改单个模块导入语句。cuNumeric 通过将 NumPy 应用程序接口转换为 Legate 编程模型并利用 Legion 运行时的性能和可扩展性来实现这一点。

2024-04-17 08:30:00 672

原创归并排序详解（附代码）

数据科学家每天都在处理算法。然而，数据科学学科作为一个整体已经发展成为一个不涉及复杂算法实现的角色。尽管如此，从业者仍然可以从建立对算法的理解和知识库中受益。在本文中，对排序算法归并排序进行了介绍、解释、评估和实现。这篇文章的目的是为您提供有关合并排序算法的可靠背景信息，这些信息可以作为更复杂算法的基础知识。尽管归并排序被认为并不复杂，但了解该算法将帮助您认识到在选择最有效的算法来执行与数据相关的任务时应考虑哪些因素。

2024-04-16 11:04:04 401

原创深入详解GRACE CPU架构

NVIDIA Grace CPU 是 NVIDIA 开发的第一款数据中心 CPU。通过将 NVIDIA 专业知识与 Arm 处理器、片上结构、片上系统 (SoC) 设计和弹性高带宽低功耗内存技术相结合，NVIDIA Grace CPU 从头开始构建，以创建用于计算。超级芯片的核心是，它允许 NVIDIA Grace CPU 以 900 GB/s 的双向带宽与超级芯片中的另一个 NVIDIA Grace CPU 或进行通信。

2024-04-16 11:02:53 909

原创 CUDA独立上下文模块加载

大多数 CUDA 开发人员都熟悉 cuModuleLoad API 及其对应项，用于将包含设备代码的模块加载到 CUDA 上下文中。在大多数情况下，您希望在所有设备上加载相同的设备代码。这需要将设备代码显式加载到每个 CUDA 上下文中。此外，不控制上下文创建和销毁的库和框架必须跟踪它们以显式加载和卸载模块。这篇文章讨论了 CUDA 12.0 中引入的上下文独立加载，它解决了这些问题。

2024-04-15 11:01:49 1094

利用SSD网络进行车牌检测模型训练

Pytorch 1.11 Jetpack 5.0 python 3.8

第六届Sky Hackathon知识图谱

人脸口罩检测(含运行代码+数据集)

空空如也