RA AI衍生者训练营-CSDN博客

原创 A100 和 4090 傻傻分不清？看了就明白训练卡和推理卡的区别

本文来解释A100 和 4090各自的优势和应用场景

2024-06-25 21:48:48 1899

原创 “生活不是等待风暴过去，而是学会在雨中跳舞。“

"生活不是等待风暴过去，而是学会在雨中跳舞。"

2024-09-24 15:48:28 108

原创 ‘聊天不要太正经，越调戏对方越爱你的搞笑句子’

免费小程序《字形绘梦》上线啦！欢迎大家体验！

2024-09-03 16:19:06 690

特征/训练/推理 (FTI) 管道架构本文介绍了特征/训练/推理 (FTI) 架构，以使用 MLOps 最佳实践构建可扩展且模块化的 ML 系统。Hopsworks 首席执行官 Jim Dowling 提出了该设计 [1]。我们将首先讨论构建机器学习系统时遇到的问题。然后，我们将研究其他潜在的解决方案及其问题。最后，我们将介绍特征/训练/推理 (FTI) 设计模式及其优势。我们还将了解在构建 ML 系统时使用特征存储和模型注册表的优势。

2024-09-02 15:54:34 1155

原创超越微调模型

计算机视觉和自然语言处理领域正在迅速发展，对针对特定下游任务进行微调的专用模型的需求日益增长。然而，拥有不同的微调模型有多个缺点：1. 对于每个任务，必须存储和部署单独的模型（可以通过应用 LoRA 等方法进行微调来解决此问题）。2. 独立微调的模型无法从相关任务的信息中获益，这限制了它们在域内和域外任务中的泛化。然而，多任务学习需要访问每个特定任务的数据集，而整合这些数据集可能很复杂。如果我们无法访问所有下游任务的数据集，但可以使用微调模型，该怎么办？

2024-09-01 15:47:51 1046

原创金融科技初创企业建设指南

您是否提供了更加用户友好的界面？您能以较低的成本提供这项服务吗？您是否瞄准了尚未得到充分服务的细分市场？您的解决方案是否以创新的方式利用新技术？您的独特价值主张应该清楚地阐明为什么客户会选择您的服务而不是现有服务。

2024-09-01 15:45:47 1443

原创 5 本顶级LMM和AIGC书籍

本文回顾了五本探讨大型语言模型 (LLM) 和生成式人工智能等快速发展领域的关键书籍，为这些变革性技术提供了重要见解。向读者介绍了用于自然语言处理的 Transformer 架构，并提供了使用 Hugging Face 进行文本分类等任务的实用指导。Sebastian Raschka 的提供了构建 LLM 的全面指南，从数据准备到微调。Jay Alammar 和 Maarten Grootendorst 撰写的《揭开了生成式 AI 与业务集成的神秘面纱，强调了在 AWS 上进行模型选择和部署。

2024-08-31 15:33:35 1223

原创 Transformer 与传统模型Informer

Transformer 与传统模型：Informer 如何改变时间序列预测的规则Transformers 是那些聪明的注意力构建者，它们在机器学习的各个领域掀起了波澜。但在时间序列预测领域，它们才真正大显身手。你可能会问，为什么？想象一下，有一个水晶球，它不仅能看到未来，还能理解导致未来的复杂过去事件网络。这就是 Transformers 带来的好处。

2024-08-31 15:32:13 1015

原创对新创业公司始终有效的客户获取策略

显然，不同类型的市场和产品会有不同的指标，需要不同的策略。但我每周去杂货店已经 20 多年了，这已经根深蒂固地融入了我的日常生活，以至于改变习惯的精神能量感觉比去商店的时间成本更昂贵（尽管事实显然并非如此）。无论你推出的是 CRM、健康应用、电子商务平台还是任何其他类型的企业，克服消费者惰性的关键在于瞄准那些已经处于相关变化中的人们。让人们在已经习惯现有产品的情况下转换新产品需要改变人们的行为，而行为是极难改变的。“我不明白为什么我们的策略没有起到更好的效果，”会议开始时，这位创始人抱怨道。

2024-08-30 15:48:48 1209

原创增强检索增强生成模型的可靠性和可追溯性

事实上，上下文幻觉仍然会出现，有时找不到正确的上下文。为了解决这些限制，我们提出了一种新颖的 SELFREASONING 框架，通过使用 LLM 自身生成的推理轨迹来提高 RALM 的性能。所提出的方法很有趣，因为它既提高了系统响应的能力，又提高了对 LLM 响应方式的追踪能力。虽然我们在使用 RAG 时没有对其进行推理训练，但我们感兴趣的是它解释上下文并使用此信息进行响应的能力（因此我们对预训练期间获得的知识不太感兴趣）。然后，我们可以思考如何调整模型的能力，对发现的上下文进行推理，并学习如何提取信息。

2024-08-30 15:47:39 1464

原创微软的OmniParser简介

AI 代理可以通过一系列思维过程分解高度模糊的问题，类似于人类的推理，从而处理这些问题。这些代理可以使用各种工具（包括程序、API、网络搜索等）来执行任务并寻找解决方案。该图说明了组成 AI Agent 的各种组件，包括其网页浏览功能以及导出手机屏幕、桌面视图和网页浏览器的功能。通过提供详细的上下文信息和对用户界面内各个元素的精确理解，细粒度的局部语义使模型能够做出更明智的决策。标签准确度的提高不仅可以确保识别正确的图标并与其预期功能相关联，而且还有助于在应用程序内实现更有效、更可靠的交互。

2024-08-29 13:00:00 997

原创科技员工生产力为何大幅下降

如果你向任何科技行业的员工询问他们目前的想法，很有可能他们会茫然地盯着你 15 到 30 秒，试图弄清楚你站在哪一边。我知道，因为我问过，并且我得到了很多这样的反应。最近，我与许多科技行业的高层领导进行了多次坦诚的讨论，这令人惊讶。我将站在 (高于) 平均水平的科技员工的角度，帮助我们所有人找到答案。类似于治疗，但没有愚蠢的应用程序或蜡烛。

2024-08-29 12:00:00 377

原创提高人工智能产品经理的标准

这种更为严格的实践方法有助于确保模型成功落地并为用户提供最佳体验。更多的技术知识和理解。对发布时存在的任何已知问题或权衡承担更多风险和责任。花费 2 到 3 倍的时间和精力——创建评估数据集来系统地测量模型行为可能需要花费数小时到数周的时间。十有八九，当模型发布失败时，公司会采取放任不管的策略。Netflix、Google、Meta 和 Amazon 等在产品中部署 AI 已有多年历史的大公司则较少采取这种策略，但本文不适合他们。然而，克服放手式做法的惯性可能颇具挑战性。

2024-08-28 15:21:27 899

原创 Meta 的 SAM 2：可以分割任何内容（甚至视频）的人工智能

在不断发展的人工智能领域，Meta 刚刚投下了一颗重磅炸弹，它将彻底改变计算机视觉领域。Segment Anything Model 2（简称 SAM 2）问世了。这不仅仅是另一个增量更新；这是人工智能理解和与视觉内容交互能力的一次巨大飞跃。让我们深入了解是什么让 SAM 2 成为游戏规则改变者，以及为什么它可能成为计算机视觉领域的“GPT-4 时刻”。

2024-08-28 15:18:21 891

原创 LLM 安全培训和越狱

Meta、Google、OpenAI、Anthropic 等在公开发布之前都投入了大量精力来审查其模型的输出，并设置安全使用的护栏。尽管他们付出了努力，但越狱仍然会发生，即使是最新版本也是如此。根据 [1]，GPT4 很容易受到基于说服的攻击，事实上比旧版 ChatGPT 更容易受到攻击。新的和更复杂的模型带来了新的和尚未发现的漏洞，这意味着安全训练协议需要跟上 LLM 不断增强的能力（特别提到 Claude，它似乎保持着强劲势头）。

2024-08-27 15:10:40 893

原创当人工智能自食其力时

具有讽刺意味的是，她的作品因其“人性”而受到赞赏，力求在旧有的忠诚中建立新的联系，为我们提供了一个全新的视角，让我们现在可以通过它来观察人工智能的发展和新兴的后知识经济。我在文章的最后提出了后知识经济的概念，即“一种新知识的先兆，这种知识可能不是人类的专属，而是代表着一种巨大的（和高度开放的）普遍智慧”。”一文中，我推测了“后知识”经济的概念，即不仅仅是通过基于知识的服务（而不是实体商品和基于劳动力的服务）积累财富，还发展出一种由人工智能驱动的经济，可以“毫不费力地”产生知识，似乎绕过了人类的输入。

2024-08-27 15:08:13 706

原创从基础到高级 RAG 的每一步

RAG 或检索增强生成，使 LLM 能够从一个或多个数据源检索信息，并使用这些信息来回答用户查询。设置基本的 RAG 系统相对简单，但开发一个既强大又可靠的系统却面临许多挑战和陷阱，尤其是在优化计算效率时。在本篇博文中，我们将探讨开发 RAG 系统时常见的陷阱，并介绍旨在提高检索质量、最大限度地减少幻觉和处理复杂查询的先进技术。在阅读完本文后，您将更深入地了解构建 RAG 系统所涉及的复杂性，并了解如何开始解决这些问题。下面是大多数人使用的 RAG 基本流程图。

2024-08-26 15:29:29 924

原创 LLM 培训

这些数据用于训练另一个称为奖励模型的 NN 模型。在此阶段，大型语言模型 (LLM)（如 GPT-3）在来自互联网的海量数据集上进行训练，以预测文本序列中的下一个单词。如果您探索过基于聊天的模型，它会在答案中提出另一个问题并回答它，因为它在训练期间已经看到了这些类型的数据。如果我们使用一个经过预训练的模型，该模型刚刚学会预测下一个单词，并且不将输入作为问题或指令。RLHF 有助于改善模型的行为和与人类价值观的一致性，确保它提供有用、真实和安全的反应。我们希望我们的模型是诚实的，不会提供不真实的误导性信息。

2024-08-26 15:26:52 907

原创人工智能在专业领域的斗争

ChatGPT 等大型语言模型 (LLM) 在用自然语言讨论一般话题的能力方面令人印象深刻。然而，他们在医学、金融和法律等专业领域却举步维艰。这是由于缺乏真正的理解，并且注重模仿而不是智力。大语言模型正处于炒作的顶峰。由于能够用自然语言回答和讨论一般性话题，因此被认为是“智能”的。然而，一旦你深入研究医学、金融、法律等专业/复杂领域，就很容易观察到逻辑不一致、明显的错误和所谓的“幻觉”。

2024-08-25 16:51:19 1021

原创 ChatGPT 如何让我变成了一名黑客

有没有看过这样的电影：黑客只需敲几下键盘就能入侵最安全的系统，然后心想：“我希望我也能做到”？我知道我看过。虽然成为一名真正的黑客听起来可能有些牵强，但如果我告诉你，在 ChatGPT 的帮助下，我离这个梦想又近了一步，你会怎么想？这是一个关于人工智能模型如何帮助我探索令人着迷的黑客世界的故事，它将一个好奇的新手变成了一个伪专业人士。系好安全带，因为这段旅程和任何好莱坞大片一样令人兴奋。正在上传至 ChatGPT 的 CVE 列表 — 由 Dall-E 生成。

2024-08-25 16:50:06 645

原创为什么要构建自己的 AI 代理库

上个月，我开始深入研究 AI 代理的世界。在探索这个领域时，我突然有了灵感：从现在开始我要研究 AI 代理。最近，我一直在思考第二点。既然有很多可用的选项，为什么还要开发自己的 AI 代理库呢？经过一番思考，我认为现在我可以清楚地阐述我构建自己的 AI 代理库的原因了。这篇文章将介绍我走这条路的 3 个主要原因。

2024-08-24 15:00:27 1109

原创 LLaVA 简介

LLaVA 由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员设计，最近在 NeurIPS 2023 上展出。该项目的代码和技术规范可以在其Github 存储库中访问，它还提供了与助手交互的各种界面。正如作者在论文摘要中总结的那样：[LLava] 在 11 个基准测试中取得了最佳成绩。我们最终的 13B 检查点仅使用 1.2M 公开数据，并在单个 8-A100 节点上约 1 天内完成完整训练。我们希望这可以让最先进的 LMM 研究更容易获得。代码和模型将公开。

2024-08-24 14:58:41 817

原创 GenAI 的产品：快速行动，但失败

2022 年秋季，我正在做一个很酷的项目。是的，你猜对了——使用公司特定的数据对预先训练的 LLM（Bert）进行微调。然而，很快 ChatGPT 就发布了，并席卷了全世界。既然已经有一门非常强大的 LLM 了，我再去微调它又有什么意义呢？我一直是 Bert 的忠实粉丝，所以当 ChatGPT 发布时，我也陷入了这种热潮中。我的意思是，谁不会呢？人工智能的前景就像一个闪亮的新玩具，我迫不及待地想玩它。在本文中，我想分享我作为一名（NLP）数据科学家的旅程，他渴望通过 GenAI 产生影响。

2024-08-23 15:15:38 635

原创大型语言模型的工作原理

得益于大型语言模型（简称 LLM），人工智能现在吸引了几乎所有人的注意力。ChatGPT 可能是最著名的 LLM，由于自然语言是一种非常自然的界面，它使得人工智能领域最近的突破变得人人皆可访问，因此它的受欢迎程度迅速飙升。然而，除非您是数据科学家或从事其他与 AI 相关的工作，否则 LLM 的工作原理仍然不太为人所知。在本文中，我将尝试改变这种状况。不可否认，这是一个雄心勃勃的目标。毕竟，我们今天拥有的强大的大型语言模型是数十年人工智能研究的结晶。

2024-08-23 15:11:29 823

原创 LLM 中 100K 上下文窗口背后的秘密

在这里以及后面，我们交替使用“上下文长度”、“上下文窗口”和“输入标记的数量”，将它们表示为n。第一个问题是注意层计算相对于输入标记数量n的二次时间和空间复杂度。当嵌入大小d > n时，第二个问题是关于嵌入大小d的线性层的二次时间复杂度。第三个问题是原始架构中使用的位置正弦嵌入。在 Transformer 架构中，可学习矩阵权重的形状与输入标记n的数量无关。因此，经过训练的 Transformer 具有 2K 上下文长度可以使用任意长度的 token甚至 100K。

2024-08-22 21:13:03 1249

原创 ChatGPT 的幻觉有改善吗？

在早在 ChatGPT 刚刚问世时（几个月前），我就曾写过一篇文章，描述它愿意（不，是渴望）向用户提供大量。这些错误被称为幻觉，这是一个技术术语，强调了 ChatGPT 完全没有意识到自己正在提供可疑内容或欺骗任何人。ChatGPT 产生幻觉并不是真正的问题。真正的问题是，它的幻觉往往令人信服且难以察觉。这是因为我们这些拥有碳基大脑的人倾向于依靠人类特有的线索来识别错误信息。（例如，当说话者在谎言面前结结巴巴时，或者当一个阴谋论的 Facebook 帖子充满了语法错误时，这就是一个迹象。

2024-08-22 21:10:30 1223

原创 LLaVA 简介：一种多模式 AI 模型

LLaVA 是一个端到端训练的大型多模态模型，旨在根据视觉输入（图像）和文本指令理解和生成内容。它结合了视觉编码器和语言模型的功能来处理和响应多模态输入。图 1：LLaVA 工作原理的示例。

2024-08-21 15:14:19 1190

原创大型语言模型（LLM）历史简介

当我们谈论大型语言模型 (LLM) 时，我们实际上指的是一种能够以类似人类的方式进行交流的高级软件。这些模型具有理解复杂上下文并生成连贯且具有人情味的内容的惊人能力。如果您曾经与 AI 聊天机器人或虚拟助手聊天，那么您可能实际上在与 LLM 进行交互，甚至可能没有意识到这一点。这些模型的用途远远超出聊天机器人，并且具有广泛的应用范围，例如文本生成、自动翻译、情感分析、文档摘要以及许多其他场景！LLM 已成为人工智能 (AI) 领域不可或缺的一部分。

2024-08-21 15:12:36 812

原创 AI 代理参考架构

但在代理工作流中，LLM 可能会被反复提示反思和改进其输出、使用工具、计划和执行多个步骤，或实现多个协作的代理。AI 代理在围绕 #Autonomous 代理（尤其是面向目标的代理）的研究方面有着悠久的历史。解决此类复杂任务的高级方法包括：(a) 将给定的复杂任务分解为（层次结构或工作流）简单任务，然后 (b) 组合能够执行简单任务的代理。在动态方法中，给定一个复杂的用户任务，系统会根据运行时可用代理的功能制定一个计划来满足请求。在静态方法中，给定一组代理，在设计时手动定义复合代理，结合它们的功能。

2024-08-20 14:12:01 589

原创 LLM的一些基础知识：参数和内存估计

了解 Mistral-7B 等模型的内存需求对于优化其部署和使用至关重要。这些信息对于那些考虑使用云服务进行模型训练和推理的人来说尤其重要，因为它会影响硬件的选择和总体成本。训练时为了保证模型收敛，参数类型不能为int8或者int4，一般使用float，如果性能稍差，也可以选择BF16。一般情况下参数数量是首要因素，例如同架构下13B-int8模型一般会比7B-BF16模型表现更好。虽然其他因素也使用内存，但推理过程中内存使用的主要部分是参数。— 使用 SGD 优化器时，需要与参数数量相当的内存。

2024-08-20 14:10:05 936

原创启程与远征Ⅹ--Transformers KV 缓存详解

由于解码器是因果的（即，一个标记的注意力仅取决于其前面的标记），因此在每个生成步骤中，我们都在重新计算相同的先前标记的注意力，而实际上我们只是想计算新标记的注意力。（即，在 GPT 等仅解码器模型中，或在 T5 等编码器-解码器模型的解码器部分中）。报告的，推理速度的差异很大，而 GPU VRAM 的使用率可以忽略不计，因此请确保在您的 Transformer 模型中使用 KV 缓存！在解码器的自回归生成中，给定一个输入，模型会预测下一个标记，然后在下一步中采用组合输入进行下一个预测。

2024-08-19 15:58:00 364

原创启程与远征Ⅸ--如何自学AI

如果您的手触摸键盘来工作，那么人工智能将在未来几年改变您的工作。在这篇博文中，我将与您分享扩展您的 AI 技能的路线图以及学习资源。这个路线图深入基础，所以即使你没有任何机器学习、数学或编程背景，我希望你也能从中获得一些有用的入门想法。现在，让我们开始吧！💪。

2024-08-19 15:56:08 449

原创启程与远征Ⅸ--优化生成式人工智能以满足业务需求的框架

生成类似人类的文本和语音曾经只存在于科幻小说中。但 GPT-3 和 PaLM 等大型语言模型 (LLM) 的快速发展让这一愿景更接近现实，解锁了从聊天机器人到内容创作等一系列有前景的商业应用。然而，通用基础模型往往无法满足行业用例的需求。企业对其生成式 AI 应用程序有不同的要求——从到。此外，可用于模型训练的数据的性质和数量可能存在很大差异。因此，产品团队必须概述其生成式 AI 应用程序的关键业务标准，并选择正确的优化技术工具包来满足这些需求。

2024-08-18 15:54:45 943

原创启程与远征Ⅷ--SaaS的消亡

在我职业生涯的开始，我们还没有 SaaS。科技公司会开发他们需要的任何东西。即使是小公司也有自制的工时表、客户关系管理系统甚至 ERP 之类的东西。这就是我们得到“遗留软件”的方式。它们大多很糟糕，是由一群缺乏积极性的暑期实习生轮流开发的，而且每个人都在抱怨。然后 SaaS 出现了。就像有应用程序一样，肯定也有 SaaS 可以满足需求。当前启动操作系统，图表由我制作现在，初创企业的基本操作系统就是一张由 SaaS 组成的蜘蛛网。任何创始人都会证明，账单很快就会增加。

2024-08-18 15:52:12 764

原创启程与远征Ⅶ--ChatGPT-4o 有何特别之处？

大家已经知道，OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体，但具有前所未见的多模态功能。有趣的是，它包括实时视频处理等强大功能，这一关键功能最终可以让我们创建强大的虚拟助手，实时支持我们的日常生活。然而，这样的功能应该很昂贵且缓慢，考虑到该模型速度极快且免费使用，这不合情理。那么，到底发生了什么事呢？OpenAI 一定已经意识到了一些我们尚未意识到的事情，即我们今天讨论的智能设计决策可以以极低的价格创建出更智能的模型。那么，这一切有何意义？

2024-08-17 16:30:39 1055

原创启程与远征Ⅴ--生成式人工智能可能正濒临自我毁灭

2022 年，马克·扎克伯格 (Mark Zuckerberg) 表示，15% 的推送内容是人工智能生成的，该公司预计到 2023 年底，这一数字将增加一倍以上，数据显示，他们远远超过了这一指标。特别是生成式人工智能。这也是为什么我们不应该围绕这项技术建立我们的产业或数字社会系统，因为它可能很快就会崩溃，让我们的经济和数字生活就像一棵空心的腐树，等待下一场风暴将其吹倒。因此，到 2026 年，这些生成式人工智能可能会主要使用自己创建的数据进行训练，并且只需要对这些数据进行几轮训练，这些人工智能就会崩溃。

2024-08-17 16:28:51 616

原创启程与远征Ⅵ--制定 AI 战略？这还不够！

这是一个众所周知的程序。一项新技术出现，炒作周期开始，高层管理人员指派某人制定战略，决定如何将其作为新工具、新功能或商业模式的新方面来实施。这一次，一切都不同了。人工智能很快就会脱离工具或功能的范畴，拥有自己的生命。实时的市场洞察。自动订购库存。由人工智能领导的团队执行复杂的项目。自主决策的生产机器人。由人工智能而不是人类经理进行数据驱动的战略变革，因为后者的速度太慢了。通过算法调整的组织在竞争中保持领先地位。与虚拟代理进行互动，就像他们是真正的员工一样。这些场景可能看起来很未来化。但事实并非如此。

2024-08-16 16:02:25 1338

原创启程与远征Ⅳ--人工智能革命尚未发生

互联网上最受欢迎的游戏开发者之一、Pirates Software 名人 Jason Thor Hall 在最近的一篇短文中精辟地描述了这个问题，他说：“我们曾与使用 AI 生成的代码的人交谈过，他们说，嘿，我大约需要一个小时才能编写这段代码，调试需要 15 分钟。此外，47% 使用人工智能的员工表示，他们不知道如何实现雇主期望的生产力提升，40% 的员工认为公司在人工智能方面对他们要求过高。事实上，81% 的高管表示，他们在过去一年中对员工的要求有所提高，这与 AI 的推出相一致。

2024-08-16 15:59:07 944

原创启程与远征Ⅲ--很棒的大语言模型代理

这是关于什么的？这是关于什么的？这篇 Awesome-LLM-Agents 是对 Agentic AI 上的最新里程碑论文和开源项目的深度优先回顾。主题上建立专业知识的第一步，我打算将这个故事用作知识库，记录项目的方法、流程和目录。在此过程中，我应用了几个框架来帮助规划和执行。

2024-08-15 16:18:55 887

空空如也

空空如也