新缸中之脑-CSDN博客

原创 ComfyUI-PromptOptimizer：文生图提示优化节点

是 ComfyUI 的一个自定义节点，旨在优化文本转图像模型的提示。它将用户输入的提示转换为更详细、更多样化、更生动的描述，使其更适合生成高质量的图像。无需本地模型。

2025-01-17 10:12:39 1083

原创 ComfyUI-Polinations：无需本地模型的文生图节点

自定义节点允许你在 ComfyUI 工作流中直接使用 Pollinations 的强大 AI 模型生成图像。无需自己下载模型，也无需 API 密钥。

2025-01-17 10:11:27 1257

原创 ComfyUI-AppGen节点包：用自然语言生成Web应用

充当编程机器人的可自定义 LLM 客户端。它可以根据自然语言提示生成代码。它适用于任何支持 OpenAI API 的 LLM。它在测试模型上产生高度准确和高效的结果。

2025-01-04 08:00:41 826

原创 ComfyUI-Autodistill：图像集自动标注生成目标检测数据集

节点利用基础模型对指定的图像文件进行自动标注，生成目标检测数据集。base_model：基础模型，由节点加载input_folder：待标注的图像文件目录extension：待标注图像文件的后缀，默认：'png'output_folder：待生成数据集的保存目录，包含原始图像和标注信息dataset：生成的目标检测数据集。

2024-12-11 10:07:54 1207

原创 ComfyUI-PandasAI：与表格数据对话

FileConnector可以上传本地的数据文件作为数据分析的数据源，目前支持csv和xlxs。file：已上传的数据文件connector：数据源连接对象BambooLLM 主要针对数据分析。它旨在理解和执行与数据分析、数据处理和数据可视化相关的自然语言查询。可以在这里注册以获取免费 API 密钥。api_key：API密钥llm：LLM对象。

2024-12-11 10:06:22 987

重新照明（relighting）是在给定输入场景的情况下，在指定的目标照明条件下渲染场景的任务。这是计算机视觉和图形学中的关键任务。然而，这是一个不适定问题，因为场景中物体的外观是由光源、几何形状和表面材料属性等因素之间的复杂相互作用产生的。这些相互作用会产生歧义。例如，给定一个场景的照片，物体上的黑点是由于照明投射的阴影造成的，还是材料本身的颜色很暗？区分这些因素是有效重新照明的关键。在这篇博文中，我们讨论了不同的论文如何通过扩散模型解决重新照明问题。

2024-11-06 08:57:42 1103

原创用Python可视化海量点云

数据可视化是一个大问题🌶️：通过使用视觉元素对信息进行图形表示，我们可以最好地呈现和理解数据中的趋势、异常值和模式。你猜对了：使用代表真实世界形状的 3D 点云数据集，这是强制性的 🙂。本文处理和可视化无人机 3D 点云。你将在实时可视化和创建动画的同时学习特征提取、交互式和自动分割但是，当从激光扫描仪或摄影测量等 3D 重建技术收集时，点云通常过于密集，无法进行经典渲染。在许多情况下，数据集将远远超过 1000 万大关，这使得它们对于 Matplotlib 等经典可视化库来说不切实际。

2024-11-06 08:52:32 2044

原创计算几何算法的应用

计算几何是计算机科学的一个分支，专注于创建几何问题求解算法。许多行业，包括计算机图形学、机器人技术、地理信息系统、计算机视觉和计算生物学，都在一系列应用中使用这些方法。它是计算机科学的一个分支，具有广泛的应用范围。计算几何在模式识别、计算机图形学、运筹学、制造和计算机辅助设计等领域面临着多项挑战。计算机图形学和 CAD/CAM（计算机辅助设计和制造）的进步是计算几何作为一门学科发展的主要驱动力。然而，许多计算几何问题具有经典性质，可以源于数学可视化。

2024-11-02 09:11:11 1495

原创 ARKit可视化LiDAR点云

在这篇由两部分组成的文章中，我们构建了一个基本的 AR 应用程序，该应用程序能够使用 ARKit 和 LiDAR 在 Swift 中生成和呈现 3D 点云。我们发现了如何提取 LiDAR 数据，将其转换为 3D 空间中的点，并将其合并为单个点云，以及将其导出并共享为 .PLY 文件的能力。这个应用程序只是一个开始。你可以通过添加更高级的过滤等功能来进一步增强它，允许用户调整点云密度，或者通过根据距离或其他因素替换网格字典中的点来提高云质量。

2024-11-01 08:49:33 1045

原创 ARKit读取LiDAR点云

ARKit 是 Apple 强大的增强现实框架，允许开发人员制作专为 iOS 设备设计的沉浸式交互式 AR 体验。对于配备 LiDAR 的设备，ARKit 充分利用了深度感应功能，大大提高了环境扫描精度。与许多体积庞大且价格昂贵的传统 LIDAR 系统不同，iPhone 的 LiDAR 结构紧凑、经济高效，并可无缝集成到消费设备中，使更广泛的开发人员和应用程序能够使用高级深度感应。LiDAR 允许创建点云，点云是一组数据点，表示 3D 空间中物体的表面。

2024-11-01 08:48:25 1199

原创 3D游戏阴影技术综合指南

在维姆·文德斯 (Wim Wenders) 的优秀作品《完美的日子》 (Perfect Days) 的结尾，男主角平山 (Hirayama) 在桥下喝啤酒，因为他看到一个商人在追求他的暗恋对象。突然，商人在桥下加入了他。然后他们走进路灯的光亮中，调查他们的影子（完整场景）：《完美的日子》(2023) 中的标志性场景。剧照来自 film-grabs.com。尽管商人看不出有什么不同，但平山确信重叠的阴影确实变暗了。“它必须变暗才能有意义。”多么感人的场景。不幸的是，平山搞错了。阴影在那里不会变暗。

2024-10-31 21:05:01 836

原创 AR基础知识：SLAM同时定位和构图

在中，我们了解了算法如何识别相机帧中的关键点。这些是跟踪和识别环境的基础。对于增强现实，设备必须知道更多信息：它在世界上的 3D 位置。它通过自身与多个关键点之间的空间关系来计算这一点。这个过程称为“同时定位和地图构建” - 简称 SLAM。

2024-10-31 21:01:48 1414

原创为Meta Spark准备3D模型

有许多工具可以帮助你为 Meta Spark Studio 创建 3D 对象，包括 Cinema4D、Blender 和 3ds Max。你还可以使用 Meta Spark Toolkit 优化 Blender 对象。在本指南中，我们将介绍正确的设置，以便你可以成功地为 Meta Spark Studio 准备对象，并确保它们在你的体验中更有效地工作。

2024-10-31 21:00:16 1052

原创 Grasshopper Brep 快速指南

Brep 是边界表示的缩写，是 3D 建模和 CAD 应用程序用来表示 3D 对象的方法，通过定义其体积的极限来表达3D对象。想象一下 3D 对象作为实体。Brep 关注包围该实体的边界。与其他可能使用多边形或顶点的表示不同，Brep 由其表面之间的数学关系定义。这种数学精度可以更准确地表示复杂的形状和轮廓。在 Rhino 和 Grasshopper 的背景下，你可以将 Brep 视为与“多面体”相同。

2024-10-30 10:23:01 2091

原创 10个领先的增强现实平台【AR】

增强现实 (AR) 被描述为一种通过计算机生成的内容增强现实世界的交互式体验。使用软件、应用程序和硬件（例如 AR 眼镜），AR 能够将数字内容叠加到现实环境和物体上。早在 2024 年，许多像 Apple 这样的公司就已进入 VR/AR 市场，推出了新的耳机和工具，让用户体验一种新的人机交互形式。考虑到这一点，AI Magazine 考虑了一些致力于利用最新技术的领先 AR 平台。

2024-10-30 10:21:43 2832

原创 OpenCascade 形状遍历API

在 Open CASCADE 中，有不同的 API 可用于探索给定的形状（shape）。还有一些其他技术是探索形状的基础。在本文中，你将了解我尝试探索形状的不同技术和 API。那么，让我们开始旅程吧。在本文中，我们将探索 6 个 API。

2024-10-30 10:20:06 1036

原创 Google Vertex AI 模型花园

查看下图 Vertex AI 中的 Model Garden UI，它似乎只是另一个可搜索的模型存储库。每个模型都有一个模型卡，提供概述、潜在用例、API 使用说明等。这些模型卡根据模式、任务、提供商和其他标准进行组织。在我花时间探索它之前，我一开始就是这么想的。事实上，Vertex AI Model Garden 不仅仅是一个最先进的模型的集合。本文将引导你参观 Vertex AI Model Garden。你将探索 Vertex AI Model Garden 的一些最相关功能及其使用方法。

2024-10-30 09:14:10 859

原创 15个最受欢迎的LLMOps工具

LLMOps 是一个新兴领域，专注于生产环境中大型语言模型的运营管理。它本质上是专门针对语言和其他多模态模型的 MLOps（机器学习操作）。LLMOps 涵盖大型语言模型的整个生命周期，包括数据收集、模型训练或微调、测试和验证、集成、部署、优化、监控和维护以及协作。通过构建项目和自动化流程，LLMOps 可帮助你减少错误并有效扩展 AI 应用程序，确保模型稳健并能够满足实际需求。

2024-10-30 09:12:28 1810

原创 OpenAI Swarm：多智能体编排框架

多智能体框架的世界正在扩大，一个新的参与者刚刚加入：Swarm。它真的是新东西吗？嗯，是也不是。类似Swarms的多智能体框架：Phidata、Crewai和LangChain那么，什么是 Swarm？Swarm 来自 OpenAI Solutions 团队，旨在让使用多个 AI 智能体变得简单直观。。Swarm 的魔力在于简化使用大型语言模型实现代理行为的棘手过程。想想更少的大型提示、和更少的挣扎。

2024-10-30 09:10:54 2398

原创 7个最受欢迎的AI智能体开发框架

在深入人工智能领域时，你经常会遇到称为“代理框架”的工具。这些软件库可帮助你构建可以自动执行任务的应用程序 - 将它们视为智能应用程序背后的大脑。今天，我将根据我的经验以及社区似乎喜欢的内容，回顾一些最受欢迎的代理框架。

2024-10-30 09:09:10 3642

原创 Google NotebookLM 简明教程

NotebookLM 附带搜索和摘要工具，这些工具使用 AI 创建快速摘要并突出显示文档中的要点。无需阅读长文件，AI 可帮助你立即找到重要细节。这对于需要挑选出学习关键事实的学生、寻找快速想法的内容创建者或处理大量文档的专业人士非常有用。它使你更容易获得所需的信息而不会浪费时间。

2024-10-30 09:06:39 10455 1

原创 AI驱动的图像文本提取【Llama 3.2-Vision】

本月初，我尝试了书籍封面识别，将 YOLOv10、EasyOCR 和 Llama 3 结合成一个无缝工作流程。结果如何？我自信地从书籍封面中提取标题和作者，就像这是我的新超能力一样。。但猜怎么着？仅仅几周后，这种方法已经开始感觉像流媒体时代的旧 VHS 录像带。为什么？随之而来的是 Llama 3.2-Vision——闪亮、新颖、超群的兄弟——完全提高了标准，让我之前的方法感觉像是来自恐龙。让我们深入探讨为什么这种新方法会改变游戏规则。

2024-10-30 09:05:18 1426

原创打造领域大模型的3种方法

领域特定大型语言模型 (domain-specific LLM) 是一种经过训练或微调的专业模型，用于执行由组织政策明确定义和指导的任务。与通用 LLM 不同，领域特定 LLM 旨在在实际应用中服务于特定目的。这些自定义模型需要对其上下文有深刻的理解，其中包括与产品、公司政策和行业特定术语相关的数据。训练过程是基础模型和领域特定模型之间的关键区别。基础模型由机器学习团队使用自监督学习技术在未注释的数据集上进行训练。另一方面，在开发领域特定语言模型时，训练样本经过精心策划和标记，采用监督学习方法。

2024-10-29 08:45:59 1131

原创微软OmniParser：基于计算机视觉的GUI智能体

AI 代理可以通过一系列思维过程分解高度模糊的问题，类似于人类的推理，从而处理这些问题。这些代理可以使用各种工具（包括程序、API、网络搜索等）来执行任务并寻找解决方案。上图说明了组成 AI 代理的各种组件，包括其网页浏览功能以及导出手机屏幕、桌面视图和网页浏览器的能力。

2024-10-29 08:44:42 1263

原创 Anthropic Claude的“计算机使用”智能体

昨天，人工智能初创公司 Anthropic 发布了一款引起轰动的新版本。他们发布了旗舰大型语言模型的新版本。这款新模型具有增强的推理能力、改进的编码技能、计算机使用和 200K 上下文窗口。然而，真正引起人们注意的是部分，Anthropic 发布的演示应用程序迅速走红。“计算机使用”的参考应用程序可在上找到。它是一个 docker 映像，可以在安装了 docker 的任何计算机上运行。

2024-10-29 08:43:46 769

原创与本地Lllama 3.2交互的3种方法

大型语言模型 (LLM) 彻底改变了 AI 领域，小型模型也正在兴起。因此，即使在较旧的 PC 和智能手机上也有可能运行高级 LLM。为了给出一个起点，我们将探索三种不同的本地与 LLama 3.2 交互的方法。现在，让我们探索这三种方法！

2024-10-29 08:42:29 700

原创 33个开发人员必备的AI编程工具

AI 编码工具正在成为许多开发人员的标准做法。今天我们将了解哪些代码生成器和工具是借助人工智能创建高质量代码的最佳工具。是的，可以使用 AI 工具进行编码。事实上，利用 AI 工具进行编码不仅是可能的，而且还可以显著提高生产力和准确性。AI 代码是由人工智能 (AI) 编写的代码，通常使用大型语言模型 (LLM)。这些 AI 程序可以编写自己的程序或从一种编程语言翻译成另一种编程语言。它们还可以执行诸如提供自动生成文档方面的帮助和更快地找到代码片段等任务。

2024-10-29 08:41:31 5734

原创无代码生成式AI

最近，我看到许多渴望“利用生成式 AI 做点什么”的公司寻求帮助。当这种需求变得具体时，他们通常会寻找内部专家或自由职业者。令我惊讶的是，这些公司中的许多公司都在寻找数据科学家和 ML 工程师，认为这是有效利用生成式 AI 的关键。从我为中型和大型企业提供十几个生成式 AI 项目的经验来看，很明显许多公司对成功采用 AI 需要什么和需要谁缺乏全面的了解。他们经常误解所需的角色，专注于聘请专家，而不考虑这些角色是否符合他们的目标。这种方法可能导致效率低下和过度复杂化，最终阻碍进展。

2024-10-28 11:02:51 478

原创大型语言模型的运行成本分析

大型语言模型 (LLM) 一直处于生成式 AI 革命的前沿，尤其是自 ChatGPT 出现以来。然而，它们的全部潜力尚未得到释放，而一个重大障碍是成本。将 LLM 纳入应用程序的费用范围从按需用例的几美分到在云环境中托管单个 LLM 实例的每月 20,000 美元以上。此外，微调、训练、向量搜索和扩展也会产生大量成本。在这篇博文中，我将探讨导致 LLM 应用程序费用的因素，并将成本分解为主要组成部分。

2024-10-28 11:00:56 2207

原创 3D图形学及游戏艺术风格

图形学的转变深深影响了游戏中的 3D 艺术。从一开始，这些进步就改变了游戏的外观和感觉，将游戏艺术从简单的视觉效果提升到沉浸式体验。在本文中，我们将深入探讨视频游戏图形的演变，追溯从 80 年代末的块状纹理到当今复杂的沉浸式环境的历程。加入我们，揭开重塑游戏的技术，展示它如何激发创造力并拓宽开发者和艺术家的视野。

2024-10-28 10:58:07 1053

原创 WebGPU跨平台应用开发

对于 Web 开发人员来说，WebGPU 是一个 Web 图形 API，可提供对 GPU 的统一和快速访问。WebGPU 公开了现代硬件功能，并允许在 GPU 上进行渲染和计算操作，类似于 Direct3D 12、Metal 和 Vulkan。虽然这是真的，但这个故事并不完整。WebGPU 是协作努力的结果，包括 Apple、Google、Intel、Mozilla 和 Microsoft 等大公司。

2024-10-28 10:56:48 1595

原创基于Agent的文章生成器

为了构建我们的 AI 文章生成器，我们将使用 Ollama 进行 LLM 交互、使用 LangChain 进行工作流管理、使用 LangGraph 定义工作流节点以及使用 LangChain 社区库实现扩展功能。此外，对于网络搜索，我们将使用 duckduckgo-search。

2024-10-28 10:55:19 1160

原创基于大模型的插图故事生成器

AI 图像生成器和故事创建器（AI Image Story Generator）是一款 Web 应用程序，它利用先进的 AI 技术为用户提供一个交互式平台，用于根据音频提示生成图像和故事。该应用程序使用 FastAPI 作为后端，从而能够高效处理请求和响应，而前端则使用 HTML、CSS（DaisyUI 和 Tailwind CSS）和 JavaScript 构建，以实现响应式用户体验。

2024-10-28 10:53:56 944

原创 Scikit-LLM：大模型加持的scikit-learn

自定义 URL 后端支持使用任何 GPT 估算器和与 OpenAI 兼容的提供商，无论是本地还是基于云。设置全局自定义 URL 以使用此后端。注意，如果在同一脚本中同时使用自定义 URL 和 OpenAI 后端，请使用重置自定义 URL 配置。LLM 非常适合摘要任务。Scikit-LLM 提供了一个摘要器，可以用作独立的估计器或预处理器，类似于降维。max_words 超参数设置了字数的软限制，但实际数量可能略微超过此限制。您还可以使用可选的 focus 参数生成专注于特定概念的摘要。

2024-10-28 10:51:38 615

原创基于嵌入向量的像素图像搜索

你知道当你半夜睡不着觉时，那些奇怪的想法是如何随机出现在你脑海里的吗？我躺在床上，突然，我突然想到——“等等，印度尼西亚和摩纳哥的国旗一模一样吗？”好吧，这就是几周前的我。前一刻，我还在浏览随机的维基百科文章，下一刻，我正全身心投入一个使用人工智能比较国旗的项目。那么，我到底做了什么？我决定使用不同的人工智能模型，如 ViT、CLIP、BLIP、EfficientNet、DINO-v2 和值得信赖的旧 VGG16 来比较图像并查看它们的相似性。

2024-10-28 10:50:24 905

原创 Bitnet.cpp：1位LLM无损推理框架

1 位 LLM（例如 BitNet 1.58）的官方推理框架是 bitnet.cpp，微软最近将其开源。它提供了一组优化的内核，支持在 CPU 上对 1.58 位模型进行快速无损推理bitnet.cpp在 x86 CPU 上实现了从 2.37 倍到 6.17 倍的显著加速，能耗降低了 71.9% 到 82.8%。在 ARM CPU 上，它实现了从 1.37 倍到 5.07 倍的加速，涵盖不同模型大小，能耗降低了 55.4% 到 70%，进一步提高了整体效率。

2024-10-27 09:36:54 1845

原创生产级AI智能体开发实践【旅行规划】

在我最近的博客文章中，讨论了 AI 代理的作用，并演示了使用 LangChain 框架的实现。虽然它适用于概念验证 (POC)，但它不适合生产环境。在这篇文章中，我将提供一种更适合生产级产品的解决方案。你将学习如何创建一个可扩展、高效的系统，该系统更适合实际应用，为你提供构建更强大的 AI 解决方案的工具。

2024-10-27 09:35:35 704

原创 Llama 3.2-Vision 多模态大模型本地运行教程

Ollama 刚刚放出了对 Llama 3.2-Vision 的支持！这让人想起了新游戏发布带来的兴奋感——我期待着探索 Ollama 对 Llama 3.2-Vision 的支持。该模型不仅在自然语言理解方面表现出色，而且可以无缝处理图像，最好的部分是什么？它是免费的，专为边缘 AI 设计。在这篇文章中，我将指导你将 Ollama 升级到 0.4.0 版，提供一个动手演示来帮助你在系统上运行 Llama 3.2-Vision，并讨论该模型的特殊之处以及它如何有可能彻底改变边缘 AI。

2024-10-27 09:32:59 9375

原创 10个最流行的RAG开发框架

检索增强生成 (RAG) 已成为增强大型语言模型功能的强大技术。RAG 框架将基于检索的系统与生成模型的优势相结合，从而实现更准确、更了解上下文和更最新的响应。随着对复杂 AI 解决方案的需求不断增长，GitHub 上出现了许多开源 RAG 框架，每个框架都提供独特的功能和能力。简化的RAG 工作流程检索增强生成 (RAG) 是一种 AI 框架，它通过整合外部知识源来增强大型语言模型 (LLM) 的功能。

2024-10-27 09:31:38 4052