- 博客(935)
- 收藏
- 关注
原创 如何精准计算:大型语言模型(LLM)部署到底需要多少GPU内存?
在几乎所有关于大型语言模型(LLM)的访谈中,总有一个问题反复出现:“部署 LLM 需要多少 GPU 内存?这个问题并非偶然,它是衡量您对这些强大模型在实际生产环境中部署和扩展能力理解程度的关键指标。当您在处理像 GPT、LLaMA 或其他任何 LLM 时,准确估算所需的 GPU 内存至关重要。不论您面对的是7B参数的模型还是更大规模的模型,合理配置硬件资源以确保模型高效运行是不可忽视的环节。接下来,我们将深入解析相关计算,帮助您准确估算部署这些模型时所需的 GPU 内存。
2025-02-13 17:48:52
440
原创 一份写给普通人的 DeepSeek 速成指南!快收藏
今年春节期间,一颗来自杭州的“AI 新星”悄然崛起,它的名字叫 DeepSeek。它就像一道突如其来的闪电,不仅点亮了全球 AI 的夜空,更为开源社区带来了一股神秘的“东方力量”。随着 DeepSeek 火出圈,越来越多的人开始使用这个 AI 神器。那怎么才能用好它,发挥出它强大的实力呢?——它就像我们身边博学但有时会不自觉“脑补”的朋友。它可能会自信满满地编造不存在的数据,还会把不相关的信息联系在一起,又或者生成看似合理但实际错误的内容。所以另外,我们也要。
2025-02-13 17:45:35
571
原创 AI替代程序员,是危言耸听还是大势所趋?
在现在这个科技发展超级快的时代,AI 发展得特别迅猛,一下子就火起来了。❝这也让大家开始热烈讨论它对各个行业的影响。其中,AI 会不会把程序员的活儿给抢了这个话题,大家讨论得最起劲儿。作为一线程序员,我最近也发现一个有趣的现象:❝AI并没有像很多人预期的那样让大家的水平变得差不多,反而在不知不觉中拉大了差距。现实是,一个懂得驾驭AI的程序员,效率已经达到了惊人的水平。他不只是在写代码,而是在做任务拆分和顶层设计,让AI各司其职。
2025-02-13 17:29:41
386
原创 从 DeepSeek R1 论文深入理解推理型大模型
如果你从事人工智能或机器学习工作,可能会对那些模糊且争议不断的定义有所了解。「推理型模型」这一术语也不例外。最终,某人会在论文中正式定义它,但很快就会在下一篇文章中重新定义,如此循环。在本文中,我将「推理」定义为回答那些需要复杂、多步骤生成并包含中间步骤的问题的过程。例如,像「法国的首都是哪里?」这样的事实性问题不涉及推理。相比之下,像「如果一列火车以 60 英里每小时的速度行驶,行驶 3 小时,它能走多远?」这样的问题则需要一些简单的推理。比如,它需要认识到距离、速度和时间之间的关系,然后得出答案。
2025-02-13 17:15:54
383
原创 打工人必看!用DeepSeek轻松卷赢职场:一键生成PPT、爆款文案、数据分析,效率飙升300%!
你是不是常常感觉,自己在职场上的日常工作越来越繁重,尤其是那些重复性高、没有创意的任务,占据了你大量的时间和精力?每天都得加班做PPT,如何将思路和设计融入每一页,拖拖拉拉好几个小时,最后的效果还不如你预期。熬夜写报告,怎么都找不到合适的模板,总得反复修改,直到快崩溃。每天面对大量的Excel数据分析,眼睛花了,心力交瘁,但仍然不能保证数据分析无误。这些困扰是每个职场人必经的“大考”。
2025-02-13 16:52:20
221
原创 2025 开年爆!5家 AI 医疗公司斩获 6 亿美元融资,下一个风口已现?
近年来,AI医疗领域掀起融资热潮,5家代表性企业的成功突围不仅印证了人工智能重塑医疗生态的可行性,更为行业发展提供了3重关键启示。在技术落地层面,AI已突破实验室瓶颈,逐步渗透到影像诊断、药物研发、慢病管理等临床场景,通过智能阅片系统缩短检测时间等实际案例,验证了技术转化的商业价值;在市场定位维度,头部企业普遍聚焦"靶向创新"策略:深挖医疗资源错配、诊疗效率低下等核心痛点,这种"精准打击"模式成为获取资本青睐的关键;
2025-02-12 10:57:17
605
原创 什么是知识蒸馏,让大模型教小模型变得更聪明
知识蒸馏是一种让大模型(教师模型)教小模型(学生模型)的技术。它的目标是把大模型的知识(参数设置)“压缩”到小模型里,从而让小模型既能保持高性能,又能变得更准确。在深度学习中,模型通常会通过一个叫。
2025-02-12 10:54:40
516
原创 DeepSeek爆火背后:2025年AI大模型的潮水会流向哪?
DeepSeek 的技术革新与生态开放,**使 AI 从 “巨头的游戏” 变为 “全民共创”。**随着数字化与 AI 的相互催化,一个 “技术越普及,数据越丰富,模型越智能” 的飞轮已然形成。但对于产业AI的落地,还应该更为审慎。尽管DeepSeek的出现打破了固有的算力、模型中的部分环节掣肘,但仍有很多问题尚待解决,比如模型的定向蒸馏,比如数据体系的构建,再比如生态体系中各方利益的交叉配合等等,这早已经不仅是一道技术命题,而更是一个行业向上的产业命题。
2025-02-12 10:50:22
588
原创 一步步将DeepSeek R1微调成一个DeepDoctor(资深医生)
DeepSeek 颠覆了 AI 领域,挑战 OpenAI 的主导地位,推出了一系列先进的推理模型。最令人兴奋的是?这些模型。
2025-02-12 10:47:23
871
原创 Cherry Studio+DeepSeek R1 + 嵌入模型:企业与个人都能用的知识库(附详细教程)
Cherry Studio 是一款功能强大且灵活的桌面客户端工具,支持多模型服务,适用于 Windows、Mac 和 Linux 系统。它不仅集成了主流的 LLM 云服务和 AI Web 服务,还支持本地模型运行。它的核心亮点包括:完整的 Markdown 渲染文件上传与多模态对话智能体创建与管理友好的界面设计与灵活的主题选项更重要的是,Cherry Studio 能通过可视化界面和远程 API 接口调用各类模型,大幅降低对本地硬件的依赖,为个人和企业提供了一个高效的解决方案。
2025-02-12 09:58:04
654
1
原创 一文读懂医学基础模型,带你全面了解医学大模型到底是什么!
基础模型通常是指参数量从数十亿到数千亿不等,利用海量数据训练的大规模神经网络模型。医学基础模型往往是参照通用基础模型修改而来,其特点一是使用自监督训练策略以减少对大量专家标注数据集的依赖,二是能够处理多模态数据。医学基础模型通常包括编码器、融合模块以及多模态解码器三个组成部分。编码器旨在从输入数据中提取有意义的特征,并将其压缩为低维表示。在医学基础模型中,每种模态均对应一个编码器来将原始数据转换为有意义的表示。例如视觉编码器可以将CT或MRI转换为包含组织密度和解剖结构等属性的特征表示;
2025-02-11 11:40:11
851
原创 写给小白的LLM基本原理,快收藏
牛顿运动定律并不是“先知”告诉牛顿的,而是牛顿本人经过观察、测量、记录、思考、假设、验证等一系列步骤后总结出来的。这个总结的过程就是建立模型的过程,最后得到的结论就是一个模型。有些模型是有名字的,比如“牛顿第一、第二、第三运动定律”。根据建立的模型,我们可以直接计算出给定条件(输入)下我们关心的问题的结果是什么(输出),这也就是用模型进行“预测”的过程,这一过程有时候也叫做“推理”。为人类语言文本建立的模型就是语言模型。
2025-02-11 11:34:40
756
原创 基于 DeepSeek R1 和 Ollama 开发 RAG 系统(含代码)
今天我们一起聊一下如何借助当下最热的开源推理工具 DeepSeek R1 和轻量级本地 AI 模型运行框架 Ollama,构建功能强大的 RAG 系统。
2025-02-11 11:31:12
555
原创 从0到1:如何设计与实现AI大模型应用平台,全网最详细版本,建议收藏!
需要告诉编排器您的系统使用哪些组件,例如模型(包括用于生成、路由和评分的模型)、系统可以从中检索数据的数据库以及系统可以采取的操作。与模型网关直接集成可以帮助简化模型入门,并且一些编排器工具希望成为网关。许多编排器还支持与评估和监控工具集成。
2025-02-11 11:25:19
848
原创 2025年大模型与Transformer架构:技术前沿与未来趋势报告
“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中,Transformer 架构无疑是一颗璀璨的明星。它的出现,彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025 年大模型与Transformer架构:技术前沿与未来趋势报告》深入剖析了 Transformer 架构的前世今生、优势局限以及未来走向,为我们全面呈现了这一架构在 AI 领域的核心地位与无限潜力。
2025-02-10 20:08:10
710
原创 厦大团队:大模型概念、技术与应用实践(140页PPT读懂大模型)
大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型。
2025-02-10 19:56:47
1093
原创 AI大模型时代,人才的需求已经变了
什么是 AI 发展的第一驱动力?最近,全球科技大厂都在用行动告诉我们:人才。24年12月,谷歌 NotebookLM 的核心团队共同宣布离职创业,他们新公司的网站已经进入了「建设中」的状态。谷歌 NotebookLM 的核心成员 Raiza、Jason、Stephen 创业新公司的网页紧随其后的是,开创性工作 Vision Transformer(ViT)的三位主要作者一齐官宣了自己的新动向:共同加盟 OpenAI。
2025-02-10 19:52:57
634
原创 从零拆解一款爆火Agent智能体,4步学会设计自主决策Agent
以前我们开发的大多数智能体是固定的工作流模式,很少有按照下面的框架,开发具有和的智能体。前两天,我分享了一款可以自动使用浏览器完成简单任务的开源Agent——。是一款开源 Agent,在 GitHub 上有 1.5w star,一条命令就可以在本地安装使用,门槛非常低。自从上次分享完之后,我的职业病就犯了,总想拆解一下看看是怎么实现的,所以就有了今天这篇文章。只用了一条提示词完成了上面第一张图中 Agent 的四个模块——Memory、Planning、Tools和Action。
2025-02-10 15:30:55
1033
原创 以史为鉴,未雨绸缪:身处“大模型掀起的AI浪潮中”的感悟和思考
大模型和AI毫无疑问是近几年最热的话题和方向。生成式AI在2024年的全球市场规模已经超5000亿美元,预计在2030年前有望为全球经济贡献7万亿美元的价值,中国则有望贡献约2万亿美元。OpenAI作为大语言模型技术的重要推动者,引领了本次技术变革。在2022年11月上线的ChatGPT引爆全球,影响力度大到国家战略层面,小到改变了个体的工作模式。近两年,为了追赶业界最先进的大模型,国内在大模型行业呈现出“百模大战”的竞争格局,通义千问、DeepSeek和豆包等等。
2025-02-10 15:28:46
809
原创 大模型智能体(LLM Agent)学习笔记,大佬爆肝整理,2025年必看!
大模型对应的英文是Large Language Model(LLM),即大语言模型,简称大模型。技术层面讲,大模型是一种基于深度学习技术的机器学习模型。为什么叫大模型呢?它是相对于小模型而言的。传统的机器学习算法一般是解决某个特定领域的问题(例如文本分类),使用的训练数据集规模较小,参数也比较少。而大模型一般是基于互联网上的海量数据训练而成的,模型参数可达数十亿至数万亿。这些参数就像大脑中的神经元连接,数量越多,模型能学习和掌握的细节就越丰富,解决问题的能力也就越强。
2025-02-09 07:30:00
905
原创 从零开始认识大模型,小白入行必看!
大模型,顾名思义,就是具有庞大参数和复杂结构的机器学习模型。它能够处理海量的数据,从中提取出有价值的信息,为我们提供决策支持。与传统的机器学习模型相比,大模型具有更高的准确性、更强的泛化能力和更广泛的应用场景。
2025-02-08 14:47:16
1052
原创 新手必看:从零起步,一步步教你如何训练自己的大型模型——完整教程大揭秘!
ChatGPT面世以来,各种大模型相继出现。那么大模型到底是如何训练的呢,在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程,包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)等环节。
2025-02-08 14:37:16
1040
原创 吴恩达演讲全文:AI Agent工作流的趋势
本文是吴恩达今年3月的演讲,题目为“Agentic Reasoning”,对AI Agent工作流的趋势进行了讲解。本文对AI Agent翻译为了AI代理。本文只做学术/技术分享,如有侵权,联系删文。吴恩达指出,随着AI技术的发展,AI代理被视为一个能显著提升软件开发效率和质量的工具。他通过展示AI代理如何在主动型工作流中超越单独模型的局限,以及多代理系统如何通过协作来解决复杂问题,强化了这一观点。
2025-02-08 10:55:58
877
原创 斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
斯坦福大学李飞飞、微软研究院首席研究员等联合撰写的论文,这篇 Agent AI 综述一共80页。这篇论文深入探讨了多模态人工智能系统,尤其是智能体(Agent)在物理和虚拟环境中的交互性。它不仅为研究人员和AI领域提供了一份研究路线图,更展现了AI未来发展的深刻洞见。介绍了Agent AI的背景、动机及未来目标,探讨了其如何成为实现通用人工智能(AGI)的重要途径。
2025-02-08 10:04:00
1215
原创 微调碾压RAG?大模型意图识别工程化实践
检索增强生成(Retrieval-Augmented Generation,RAG)指的是在LLM回答问题之前从外部知识库中检索相关信息,RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来,使其成为实现大型语言模型的最重要方法之一早期的神经网络模型,在处理需要依赖外部知识或特定信息的任务时遇到了瓶颈。LLM的问题:幻觉、依赖信息过时、缺乏专业领域知识。RAG的提出,是为了解决如何将广泛的、分布式的外部信息库与生成模型相结合,从而提高模型在问答、摘要等任务中的性能和准确度。
2025-02-08 09:58:55
1025
原创 大模型部署调用(vLLM+LangChain)
一般来说,大模型应用的整体结构可以划分为几个层次:• 模型层:• 功能:负责处理输入数据并生成输出。• 代表:BERT、GPT、Qwen2等等• 推理层:• 功能:将大模型部署到服务端,暴露API。(行业普遍规范是OpenAI compatible API)• 代表:vLLM• API层:• 功能:将语言模型与其他数据源、API 和服务集成,方便上层应用开发。• 代表:LangChain• 应用层:• 功能:医疗、教育、金融、法律等垂类应用的具体支撑系统基于以上的层次信息,我们接下来初步了解行业目前普遍使用
2025-02-07 11:05:52
935
原创 一篇Agentic RAG全栈技术最新综述
2025年RAG技术并不会消亡,而是以新的范式得到更广泛、深入应用,2025新鲜出炉的Agentic RAG全栈技术综述:全面回顾了RAG的发展历程,从最初的到,再到和,每种范式都有优劣。作为最新范式,通过引入自主Agent实现了动态决策和工作流程优化。详细探讨了的基础原则、架构分类、关键应用,实施策略等全栈技术。
2025-02-07 11:04:04
728
原创 AI Agent概念系列之一:感知模块
内容脑图AI Agent的是其与环境交互的关键部分,负责收集、处理和解释环境中的各种信息。以下是对感知模块的详细介绍,包括其功能、组成部分及工作流程。
2025-02-07 11:02:26
725
原创 大语言模型LLM和自然语言处理NLP的区别是什么?
自然语言处理(NLP)与大型语言模型(LLM)在处理人类语言方面各有独特方法:NLP侧重于具体的算法建模,而LLM则通过大规模预训练获得广泛能力,两者相辅相成。它们的融合有望带来更加丰富的人工智能交互体验、更深入的产业融合,以及人工智能伦理和技术的不断进步。
2025-02-07 10:29:16
985
原创 被 DeepSeek 带火的蒸馏到底是啥?
近期,DeepSeek 的发布在开源社区引起了广泛关注。成功再次将人们的目光聚焦到了模型蒸馏技术上来。那么,究竟什么是模型蒸馏?为什么它能帮助我们构建如此高效的模型?让我们一起深入探讨这个话题。LLM Distillation 将大型生成模型定位为 “teacher”,将较小的模型定位为 “student”。student 模型可以是简单的模型(如 logistic regression)或基础模型(如 BERT)。
2025-02-07 10:24:05
938
原创 大模型部署全攻略!手把手教你部署开源 DeepSeek,告别访问受限困扰!
近年来,大模型技术突飞猛进,全球各大科技公司纷纷投入研发,形成了一系列成熟的主流大模型。以下是目前国内外最具代表性的大模型:从上表可以看出,国内大模型在中文理解方面更具优势,同时涌现出大量开源方案,为用户提供了更灵活的部署选择。此外,根据SuperCLUE最新发布的大语言模型排行榜,国内大模型主要供应商如下:下面回答一个最近用户提问比较多的问题,为什么国内外有这么多大模型了,DeepSeek还能这么火爆呢?
2025-02-07 10:19:45
934
原创 想知道DeepSeek为何如此强大?深度解析3大AI加速技术(知识蒸馏、量化与压缩)!
AI模型的优化和加速在资源受限的环境中尤为重要,知识蒸馏、无监督学习、模型量化和压缩加速方法为解决这一难题提供了多种解决方案。通过合理运用这些技术,我们能够在确保模型性能的同时,极大地提高计算效率和资源利用率。希望本文能够帮助读者更深入地理解这些优化技术,并为实际应用中的AI开发提供宝贵的指导。
2025-02-07 10:14:12
583
原创 炼丹上头了!1B大模型训练实战
通过这三个阶段的训练,模型在预训练、微调和直接偏好优化中逐渐提升了性能,尽管在 DPO 阶段并未显著提升模型表现,但整个训练流程为模型的理解和调优提供了宝贵的经验。
2025-02-06 10:31:33
613
原创 LoRA 微调 Qwen2-VL-2B:轻松提升性能,解锁 GPU 极限!
上一篇文章我们探讨了如何使用自定义数据集进行模型训练,这次我将重点介绍如何使用你也可以根据自己 GPU 的可用性,选择更大的。我在显卡上进行了 LoRA 微调,针对 7B 模型进行了测试,实际操作时大约需要的显存来加载模型和图像批次进行微调。那么,为什么选择 LoRA 微调,而不是直接进行完整训练呢?首先,让我们了解一下(Low-Rank Adaptation)到底是什么?是一种针对大型语言模型(LLMs)进行高效微调的技术。
2025-02-06 10:26:59
627
原创 DeepSeek+本地知识库:真的太香了
整个操作下来,AnythingLLM 的体验没有cherry好。AnythingLLM就像一个包壳的web应用(后来查了下,确实是)。AnythingLLM 得具备一定的程序思维,给技术人员用的。非技术人员还是使用cherry吧。作为喜欢折腾的开发人员,我们可以结合dify使用。个人知识库+本地大模型的优点隐私性很好,不用担心自己的资料外泄、离线可用在工作和学习过程中对自己整理的文档,能快速找到,并自动关联在代码开发上,能参考你的开发习惯,快速生成代码。
2025-02-06 10:22:55
2218
原创 一文搞懂DeepSeek - 多头注意力(MHA)和多头潜在注意力(MLA)
通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。在传统的Transformer架构中,多头注意力(MHA)机制允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。然后,对拼接后的向量进行一个最终的线性变换,以整合来自不同头的信息,得到最终的多头注意力输出。这些变换通常是通过全连接层实现的。
2025-02-06 10:11:06
1195
原创 DeepSeek如何通过精准数据标注引领AI技术的突破?
在AI发展的道路上,数据标注将继续扮演着至关重要的角色。DeepSeek通过精准的数据标注,不仅提升了自身的AI模型性能,也为整个行业提供了宝贵的经验。随着AI应用的不断深入,数据标注的质量将成为决定企业AI应用能否成功的关键因素之一。未来,AI企业不仅要关注算法的创新,更要重视数据的精确标注,这是实现AI技术落地和产业化的基础。
2025-02-06 09:27:58
1146
原创 DeepSeek为什么要采用MoE架构?
此外,为了保证训练推理的一致性,训练的时候有 10% 的数据是不做 token-drop 的,这样在推理时,不做 token-drop 也能保证效果。
2025-02-06 09:26:54
665
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人