- 博客(1357)
- 收藏
- 关注
原创 大模型微调加速方法探究
通过本文可以了解:LoRA模型加速原理、peft包使用、Autocust自动混合精度、Accelerate和deepspeed加速、多GPU分布式训练等大模型加速训练和微调的方法和代码应用示例。近期大模型层出不穷,大家对于大模型的微调也在跃跃欲试,像斯坦福的[1], 清华的[2],中文的[3],让我这样的普通玩家也能训练自己的微调模型。在微调和推理的时候仍然需要加速,有哪些方法可以加速微调呢?
2025-03-10 14:51:26
1056
原创 开源和闭源对大模型有什么影响?
人工智能(AI)技术的迅猛发展让大模型成为推动社会和行业进步的重要力量。然而,对于一个AI模型的“好坏”和“发展前景”的评价,离不开对其开源和闭源两种发展路径的讨论。开源和闭源模式各有其独特的优势和挑战,本文将深入探讨这两种路径在数据隐私保护、用户数据安全、商业应用和社区参与方面的差异,并探究其对行业发展的推动作用。开源和闭源大模型在数据隐私保护、用户数据安全、商业应用和社区参与等方面各有其优势和挑战。开源模式以其透明性和灵活性,促进了技术的快速发展和广泛应用;
2025-03-10 14:47:54
1276
原创 大模型开源之争,开源大模型是真的开源么?
人工智能在近几年的飞速发展,不仅打破了很多传统技术和习惯,也让全球围绕大模型生态迎来了全新的赛道之争。尤其是从去年开始,全球互联网大厂掀起了“百模大战”,大家耳熟能详的互联网大厂如微软、谷歌、百度、阿里等接连下场,经过半年多的发力,这些科技巨头围绕着大模型生态而面临选择开源大模型还是闭源大模型。
2025-03-10 14:45:47
1001
原创 AI Agent新趋势
AI Agent作为一种新兴的人工智能技术,正在以其独特的自主性、反应性和交互性,颠覆着软件行业的传统格局。随着技术的不断进步和应用场景的不断拓展,AI Agent将成为推动数字化转型和智能化升级的重要力量。未来,我们可以期待AI Agent在更多领域展现其巨大的应用潜力和价值。同时,我们也应该看到,AI Agent的发展还面临着一些挑战和问题,如数据隐私、安全性等。因此,在推动AI Agent技术发展的同时,我们也需要加强对其监管和规范,确保其健康、可持续地发展。CSDN独家福利。
2025-03-08 14:03:06
1226
原创 解析AI Agent,原理、应用与代码示例
本文通过简单的网格示例演示了 AI Agent 的基本原理与实现,未来可以结合强化学习等技术实现更复杂的智能体。AI Agent 的核心是感知、决策和执行三大模块,通常结合机器学习、自然语言处理(NLP)、计算机视觉等技术。简单来说,AI Agent 是一个“智能体”,它能够模拟人类的思考与行动,完成复杂任务。假设一个 5x5 的网格,AI Agent 初始位置为 (0, 0),目标位置为 (4, 4)。以下是一个简单的 AI Agent 示例代码,模拟一个智能体在二维网格环境中寻找目标的过程。
2025-03-08 14:00:32
1450
原创 向量数据库是什么
向量数据库(Vector DataBase )是一种专门用于存储和管理高维向量数据的数据库。向量数据通常用于表示非结构化数据(如文本、图像、音频等)的特征。向量数据库通过高效的向量检索技术(例如相似度搜索)帮助用户快速找到与查询向量最相似的数据点。向量数据库,示意架构图。
2025-03-08 13:58:12
729
原创 大模型有什么发展瓶颈?
如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。
2025-03-08 13:55:41
889
原创 开源模型是什么意思?什么是开源大模型
开源大模型(Open Source Large Models)是指那些由开源社区或组织开发、维护和共享的大型软件模型。这些模型通常具有以下特点:开源:开源大模型的源代码是公开的,任何人都可以查看、修改和分发。这有助于促进技术的发展和创新。大型:这些模型通常具有较大的规模和复杂性,可以处理大量的数据和任务。例如,深度学习模型、自然语言处理模型等。社区支持:开源大模型通常由一个活跃的社区支持,社区成员可以共同参与模型的开发、维护和改进。
2025-03-08 13:52:43
1325
原创 AI Agent :从反射 Agent 到学习型 Agent
AI Agent,全称人工智能代理(Artificial Intelligence Agent),是一种能够感知其所处环境,并根据感知信息自主做出决策,进而执行相应行动以实现特定目标的智能系统。简单来说,它就像是一个具备智能的“小助手”,能够理解周围的情况,思考该怎么做,并采取行动去完成任务。
2025-03-07 14:32:49
925
原创 ai agent是什么?
大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。
2025-03-07 14:29:05
1662
原创 Manus:开启通用智能体的新时代
2025年3月6日,中国科技领域迎来里程碑式突破——由Monica.im团队研发的全球首款通用AI智能体产品“Manus”正式上线。这款被业界誉为“聪明实习生”的AI助手,凭借其自主执行复杂任务的能力,一夜之间引爆全球科技圈,推动A股AI相关板块大涨,软件ETF单日涨幅超3%。Manus的诞生不仅刷新了AI技术应用的高度,更标志着中国团队在智能体(Agent)领域实现了对国际巨头的超越。Manus的颠覆性在于其真正实现了“端到端”的任务处理能力。
2025-03-07 14:24:39
1810
原创 Manus横空出世,了解它看这一篇就够了
The Information 报道《China’s AI Glue Factory》提及 Monica 团队**“API 调用次数超过代码行数”**, 认为 Manus 依赖 “套壳” 模式(整合现有模型),但团队强调其在任务规划与执行层的创新,据悉, Manus 已申请多模型路由优化算法专利(专利号 US2024178902),证明其整合技术创新性。,但Manus 宣传擅长调用大模型 API,估计不止这些,应该是由多个独立模型协同工作,未来计划开源部分模型(如推理部分)。
2025-03-07 14:22:20
879
原创 全球首款通用AI Agent——Manus发布!3大场景实测!
AI Agent,即人工智能代理,是一种能够感知环境、进行自主理解、决策和执行动作的智能体。它不仅可以处理自然语言,还具备决策制定、问题解决、与外部环境的互动和操作执行等广泛能力。AI Agent的工作流程通常包括感知、规划(或思考)、决策和行动四个关键环节,通过不断学习和优化,实现自主完成任务的目标。Manus作为一款全球首款通用AI Agent产品,以其独特的技术优势和市场表现,有望成为AI Agent领域的标杆。
2025-03-07 14:17:14
1092
原创 为什么开源LLama?背后的逻辑是什么?
如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。
2025-03-06 14:09:13
636
原创 开源大模型和闭源大模型有什么区别?
开源大模型(Open Source Large Models)是指那些由开源社区或组织开发、维护和共享的大型软件模型。这些模型通常具有以下特点:开源:开源大模型的源代码是公开的,任何人都可以查看、修改和分发。这有助于促进技术的发展和创新。大型:这些模型通常具有较大的规模和复杂性,可以处理大量的数据和任务。例如,深度学习模型、自然语言处理模型等。社区支持:开源大模型通常由一个活跃的社区支持,社区成员可以共同参与模型的开发、维护和改进。
2025-03-06 14:07:31
1262
原创 开源大模型不得不谈的十件事
大语言模型(LLM)是利用深度学习和庞大数据集来理解、总结、生成和预测新内容的 AI 算法。语言在人类与技术之间的交流中至关重要。它为分享想法和思想提供了术语、意义和结构。在人工智能领域,语言模型不仅赋予了交流能力,还能创造新的想法。深度学习算法需要输入大量数据:通过多个序列,它会创建一个包含单词间关系的神经网络。这些关系被称为权重:它们是指向语义上最重要的下一个单词的统计指针。举个例子:如果你说“中华人民”,LLM 会根据上下文统计最可能的单词,并将句子继续为“共和国”,结果就是“中华人民共和国…”
2025-03-06 14:05:29
1243
原创 大模型为什么开源?
我们并没有将AI视为一种产品,它更像是一个研究小组,过去10多年来,它创造了许多不同的东西,改进了我们所有的产品,推动了该领域的发展,并允许该领域的其他人创造出同样改进我们产品的东西。:对大部分公司来说,当你还是一家初创公司的时候,可能会受到更多的资金限制,但当你只是在研究一个想法,虽然没有资源,但在某些时候,会跨越你正在做的事情的某个阈值,接下来就能通过它们创造更多价值。他认为,未来人工智能的集中化有可能像它的广泛传播一样危险,而解决的有效方法就是开源,开源会让AI软件更安全、更稳定,它会创造更多赢家。
2025-03-06 14:03:30
776
原创 ai大模型应用开发,学到就是赚到!
1、了解大模型能做什么2、整体了解大模型应用开发技术栈3、浅尝OpenAI API的调用,AI全栈工程师:懂AI、懂编程、懂业务的超级个体,会是AGI(Artificial General Intelligence 通用人工智能)时代最重要的人。
2025-03-06 14:01:17
773
原创 AI大模型时代来临,百模征战开始
随着多模态大模型能力的跃迁、GPTs生态的建立以及对话、图像、办 公、教育等领域AI标杆类应用的出现,AI已经具备从纯技术衍生的轻量工具产品向有具体落地场景的深度产品融合演变的能力,诸多行业将迎来工业级生产力变革,降本增 效效能凸显,数字化程度高、内容需求丰富的行业商业化及业绩兑现逻辑已完备。从 2022 年底 ChatGPT 横空出世,到 2023 年一整年的大模型热潮,在科技的巨浪中,大模型技术如同一颗璀璨的明星,迅速起并引领着一场前所未有的技术革命。大模型如同推动创新的引擎,将科技的边界不断拓展。
2025-03-05 13:33:24
781
原创 生成式AI技术赋能国防业务——多模态军事大模型实时交互决策解决方案
某司以军工及政务特种领域的大模型私有化落地为核心方向,打磨覆盖数据治理,微调数据生成,知识库构建,领域大模型训练、编排、应用全周期的大模型开发产品集,提供军事智能问答、军事情报分析、智能空战助手、指挥辅助决策及自动化调度等解决方案及应用产品。前排提示,文末有大模型AGI-CSDN独家资料包哦!
2025-03-05 13:31:54
1986
原创 国内大模型测评如何选择以及快速使用主流大模型?
自2023年5月以来,全球及中国国内的大模型技术均展现出了强劲的发展势头,尤其是以GPT系列为代表的海外顶尖模型,历经了从GPT3.5到GPT4、GPT4-Turbo乃至GPT4o的多次迭代飞跃,持续推动AI技术的边界。
2025-03-05 12:01:19
1008
原创 动手学大模型应用开发(学习记录)
大语言模型(LLM,Large Language Model)突破了传统模型无法理解人类语言的局限,实现了从规则和特征工程向端到端学习范式的转变,为自然语言处理、计算机视觉等技术的发展提供了新视角。LLM 通常包含百亿(或更多)参数,具有传统小型语言模型(例如3.3亿参数的BERT和15亿参数的GPT-2)所不具备的“涌现能力”,可以作为“基座(foundation model)”支持多元应用开发,并且支持以“对话方式”作为统一入口,实现了高效的端到端开发。
2025-03-05 11:57:51
1025
原创 一文带你全面了解大模型训练
大模型训练被分解成了预训练,监督调优,对齐等阶段。先看预训练,预训练,即Pre-training。预训练的目的是让模型学习语言的特性,主要是学习语言表达的流畅性和规则。至于具体的语言任务,比如对话,角色扮演,信息抽取,翻译,阅读理解,问答等,则需要放到监督调优。预训练是大模型的基础和核心,预训练阶段决定了模型的基础能力和上限。
2025-03-04 17:14:57
455
原创 35岁,现在学大模型来得及吗?
在人工智能迅猛发展的今天,不少35岁左右的朋友产生了这样的疑问:现在开始学习AI,是否为时已晚?事实上,30多岁的人学习AI不仅来得及,而且在某些方面还具有得天独厚的优势。以下是本文为您揭秘的35岁学习AI的可行性与优势。
2025-03-04 17:10:54
434
原创 一文带你深入了解大模型(LLM)
AIGC指内容生成式人工智能,指的是一种AI的类型,包括图像,文本,音频等内容生成式AI。所以这里包括了目前比较火热的AI绘画以及基于大语言模型的AI对话。2. 大模型到底指什么?其实我们目前讨论最多的大模型主要是指大语言模型(LLM),但是大模型并不单单指LLM,首先我们要理解大模型的概念,我们首先对这个词拆分来看,大是什么意思?模型又指代什么?首先我们来理解下模型,所谓模型通俗的讲是一个基于神经网络构建好的一个处理器,它能够根据输入产生相应的预测或者输出内容。
2025-03-04 17:06:26
1483
原创 大模型到底是什么?大模型的基本概念
文章深入探讨了人工智能大模型的核心概念,通过与人脑的比较,生动地解释了大模型如何工作,其训练过程的复杂性以及它们面临的限制。最重要的是:在AI时代,掌握与大模型沟通的“提示词”至关重要。
2025-03-04 17:03:33
884
原创 一文带你看懂大模型微调
微调是指调整大型语言模型(LLM)的参数以适应特定任务的过程。这是通过在与任务相关的数据集上训练模型来完成的。所需的微调量取决于任务的复杂性和数据集的大小。在深度学习中,微调是一种重要的技术,用于改进预训练模型的性能。除了微调ChatGPT之外,还有许多其他预训练模型可以进行微调。大模型微调如上文所述有很多方法,并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。
2025-03-03 17:05:23
787
原创 一文带你看遍大语言模型微调方法总结!
众所周知,大语言模型(LLM)正在飞速发展,各行业都有了自己的大模型。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。那么,今天这篇文章就带大家深入了解大模型微调,主要包括什么是大模型微调、什么时候需要大模型微调、大模型微调方法总结、大模型微调最佳实践等。前排提示,文末有大模型AGI-CSDN独家资料包哦!在介绍大模型微调方法之前,首先带大家了解一下大语言模型的项目生命周期,它大致可以分为以下几个步骤,如下图所示1、项目目标:首
2025-03-03 17:03:07
1001
原创 一文拆解Transformer大模型底层原理关键技术细节
本文将深入解析Transformer大模型的底层原理,探讨其架构、注意力机制、编码方式等关键技术细节。
2025-03-03 17:00:11
844
原创 拆解大模型——大模型它到底是什么?
ChatGPT、Open AI、大模型、提示词工程、Token、幻觉等人工智能的黑话,在2023年这个普通却又神奇的年份里,反复的冲刷着大家的认知。让一部分人彻底躺平的同时,让另外一部分人开始焦虑起来,生怕在这个人工智能的奇迹之年,输在起跑线上。
2025-03-03 16:57:48
918
原创 大模型部教程:一文教你部署并使用国产开源大模型ChatGLM3-6B
部署一个自己的大模型,没事的时候玩两下,这可能是很多技术同学想做但又迟迟没下手的事情,没下手的原因很可能是成本太高,近万元的RTX3090显卡,想想都肉疼,又或者官方的部署说明过于简单,安装的时候总是遇到各种奇奇怪怪的问题,难以解决。本文就来分享下我的安装部署经验,包括本地和租用云服务器的方式,以及如何通过API调用大模型开发自己的AI应用,希望能解决一些下不去手的问题。
2025-03-03 16:55:56
757
原创 大模型项目实战指南,一篇文章全掌握
我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。前排提示,文末有大模型AGI-CSDN独家资料包哦!开发大模型相关应用,其技术核心点虽然在大语言模型上,但一般通过调用 API 或开源模型来实现核心的理解与生成,通过 Prompt Enginnering 来实现大语言模型的控制,因此,虽然大模型是深度学习领域的集大成之作,大模型开发却更多是一个工程问题。
2025-02-28 21:33:26
1099
原创 一文解析AI大模型Agent
现在很多朋友都在研究AI大模型;对各个公司的大模型更是数如家珍。“chatgpt、Claude、Gemini、Llama3、文心一言、千问…”国外的、国内的、开源的、不开源的;只要出来一个大模型,就要注册,试一试效果。你真正了解它们是如何工作的吗?大家可以尝试回答下面这几个问题,就能知道自己是不是真懂,什么是LLM大语言模型了。例如:“为什么基于生成式的模型,可以模拟出聊天对话的样子?“为什么大语言模型,可以生成不同的、非固定的对话回复?
2025-02-27 19:52:40
1185
原创 智能体(AI Agent)概念、原理与应用,一文带你全面解析AI技术前沿!
以智能音箱为例,亚马逊Echo、谷歌Home等明星产品,凭借先进的语音识别与自然语言处理技术,成为了家庭中的智能小助手,只需简单的语音指令,便能轻松掌控家中的灯光、空调、电视等设备。自主智能体(Autonomous Agents),作为其中的佼佼者,它们如同拥有独立思维的探险家,在无需人类直接干预的情况下,凭借预设的规则与目标,勇敢地踏上自主完成任务的征途。在智能交通的宏伟蓝图中,智能体通过精准的数据分析与调度优化,有效缓解了交通拥堵与事故频发的问题,为人们的出行带来了更多的安全与便利。
2025-02-27 19:34:01
1482
原创 手把手教你部署大模型并使用国产开源大模型ChatGLM3-6B
部署一个自己的大模型,没事的时候玩两下,这可能是很多技术同学想做但又迟迟没下手的事情,没下手的原因很可能是成本太高,近万元的RTX3090显卡,想想都肉疼,又或者官方的部署说明过于简单,安装的时候总是遇到各种奇奇怪怪的问题,难以解决。本文就来分享下我的安装部署经验,包括本地和租用云服务器的方式,以及如何通过API调用大模型开发自己的AI应用,希望能解决一些下不去手的问题。
2025-02-26 17:41:01
1363
原创 目前最全的!国产AI大模型名单!大模型已百家争鸣!
作为一款超大规模语言模型,序列猴子凭借其长序列、多模态、单模型、大数据等特点,在问答系统、自然语言处理、机器翻译、文本摘要等领域展现出广泛的应用潜力。天工以自然语言为媒介,与用户展开深入的问答交流,其AI生成能力堪称全面,不仅涵盖文案创作、知识问答,更在逻辑推演、数理推算、代码编程等方面展现出卓越的能力。它不仅提供卓越的文本生成和创作服务,支持文本或图片输入生成高质量、多风格的图像,更拥有强大的智能编辑功能,无损放大、智能消除、智能抠图等操作一应具备,助您轻松创作精彩图像。
2025-02-26 17:37:41
1777
原创 大模型为什么是深度学习的未来?
当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练
2025-02-26 17:34:44
1119
原创 【人工智能 】一文介绍五种基本 Agent
在人工智能领域,Agent 是一个核心概念。Agent 是指具有感知环境、决策和执行能力的实体。它可以是一个简单的程序,也可以是一个复杂的系统。Agent 的研究可以追溯到 20 世纪 50 年代,当时被称为“智能体”或“自主体”。随着人工智能技术的发展,Agent 的概念和应用也越来越广泛。智能化:Agent 将越来越智能化,能够处理更加复杂和动态的环境。分布式:多智能体系统将越来越普及,如何实现高效的分布式决策和执行是一个挑战。安全性。
2025-02-26 17:32:58
1463
原创 深入浅出的聊聊 Agent
你可能会问,Agent 到底是什么呢?简单来说,Agent 就是能够在一定环境中自主感知、决策和行动的实体。它可以是一个软件程序、一个机器人,甚至是一个复杂的系统。Agent 的核心在于自主性,也就是能够自主完成特定的任务。举个例子,我们日常使用的智能语音助手,比如 Siri、Alexa 或者小爱同学。当你对它说话时,它能理解你的意思,回答你的问题,甚至帮你完成一些操作。这些智能助手就是典型的 Agent,它们能够感知你的指令,进行处理,然后采取相应的行动。
2025-02-26 17:31:36
1214
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅