自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 【AI大模型】 大模型扫盲系列——初识大模型

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。

2025-04-26 16:30:08 1635

原创 【大模型学习】2025最新AI大模型应用开发小白入门必看!

摘要 本文旨在帮助非AI背景的开发者理解大模型应用开发的核心要点。文章指出,参与大模型开发无需深厚的数学基础,关键在于掌握应用开发流程和核心能力。主要内容包括: 大模型应用架构与传统应用类似,LLM只是一个下游服务 常见应用场景:文生文、文生图、图生图、文生视频等 与大模型协作的关键:Prompt Engineering,包括Zero-shot和Few-shot方法 程序员机会:AI Agent开发,通过提供工具扩展大模型能力 核心价值:将AI能力与实际业务结合,实现自动化任务执行 文章强调AI时代下开发者

2025-06-03 11:19:31 880

原创 大模型开发理论与技术——大模型应用体系梳理,对大模型应用整体认识

《AI大模型技术体系与应用开发全景指南》 本文系统梳理了大模型技术体系与行业应用,分为三大核心板块: 1️⃣ 技术原理 本质是基于深度学习的数学模型,核心能力包括生成、推理、判别等 关键技术:Transformer架构、MoE模型、强化学习、训练微调等 开发框架:PyTorch/TensorFlow为主流选择 2️⃣ 应用开发 AIGC:依赖提示词工程激发生成潜力 RAG:分基础→高级→模块化→Agentic四阶段演进 Agent:赋予大模型使用外部工具的能力 新兴协议:Function Call、MCP、

2025-06-03 11:13:22 725

原创 【大模型学习】AI 大模型应用开发全攻略

AI 大模型应用开发作为新兴领域,不断出现新的技术:**LLM、Prompt、RAG、Agent、Fine-tuning、MCP** 等,本文聚焦 AI 大模型应用开发,带领大家入门,带领大家了解 AI 大模型应用开发的全攻略。

2025-06-03 11:07:40 851

原创 【大模型学习】大厂是怎么应用大模型的?套路和现实是?

今天聊聊,令人焦虑的大厂AI应用的表象与现实。你是否好奇过,Manus等各类大厂智能体层出不穷,**大模型真的E2E“全自动、全智能自己处理完毕任务”了吗?AI马上要替代一切了吗?**大厂莫非有什么秘密武器,让AI像专家一样工作解决问题?

2025-06-02 11:29:41 942

原创 【大模型学习 】一文读懂大规模AI模型:原理、应用与实战

本文探讨了大规模AI模型的核心特点与应用实践。大模型是指基于深度神经网络、拥有数十亿甚至上百亿参数的学习系统,具有海量参数、高计算需求和多模态支持等特性,在NLP、计算机视觉和推荐系统等领域表现卓越。文章通过BART模型文本摘要、ResNet18图像分类和MLP推荐系统等代码示例,展示了具体应用场景。同时指出大模型面临的训练挑战,包括资源消耗大、数据处理复杂等问题,并提供了基于PyTorch分布式数据并行(DDP)的解决方案。最后强调分布式训练技术对解决资源瓶颈的重要性,为开发者提供了实用的技术指导。

2025-06-02 11:23:52 859

原创 DeepSeek 正当红,聊聊大模型应用的四大关键要素和未来

大模型应用迎来爆发期,2025年或成关键转折点 随着DeepSeek R1等开源大模型的推出,AI技术正进入广泛应用阶段。大模型的价值不仅在于通用对话,更在于专业领域的深度应用,如医疗诊断、金融分析等。成功落地大模型应用需要四大要素:1)专业知识与交互设计,降低使用门槛;2)领域知识库构建,确保数据质量;3)Agent架构设计,充分发挥模型潜力;4)灵活选择适合业务的大模型。当前Transformer架构虽取得突破,但未来可能在算法、数据和算力方面继续演进。大模型技术的学习需系统规划,涵盖NLP基础、模型原

2025-06-02 11:14:55 905

原创 【AI大模型学习】终于!有人总结了大语言模型(LLM)学习路线,超详细!

这篇GitHub资源库《llm-course》为学习大语言模型提供了系统化的学习路线,包含以下核心内容: 数学基础:涵盖线性代数、微积分、概率统计等机器学习必备数学知识 Python与机器学习:系统讲解Python编程、数据科学库及经典机器学习算法 深度学习进阶:深入解析神经网络架构、训练优化及自然语言处理关键技术 LLM专项:重点剖析Transformer架构、注意力机制、文本生成策略等核心概念 实践应用:提供监督微调(SFT)、LoRA/QLoRA等高效调参技术及多GPU训练方案 资源库包含了3Blue

2025-05-30 13:20:46 629

原创 【大模型学习】大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

摘要: 上海交通大学与中科大联合研究指出,当前大模型智能体(LLM Agents)规模化应用的主要瓶颈并非模型能力不足,而是其Agentic ROI(智能体投资回报率)未达实用化门槛。该指标衡量智能体的信息收益与使用成本之比,涉及信息质量、任务时间、交互成本等因素。研究发现,LLM智能体在科研、编程等高人力成本场景中ROI较高,但在日常场景(如电商、搜索)中因交互成本低、边际收益不足而难以普及。研究提出“之字形”发展路径:先通过规模化(提升模型能力)确保信息质量,再通过轻量化(压缩模型、优化推理)降低成本。

2025-05-30 13:11:52 994

原创 【大模型入门】如何系统的入门AI大模型?看这一篇就够了!!

《大模型学习路线:从应用到深入开发》摘要 本文面向程序员系统介绍大模型技术学习路径: 前导基础:掌握Python和向量数据库技术(如Faiss、Milvus),构建AI知识存储能力; 实战开发:通过LangChain框架开发AI Agent,部署清华ChatGLM2-6B等开源模型; 进阶提升:学习机器学习(分类/聚类算法)、深度学习(CNN/Transformer)、NLP核心技术(BERT/Word2Vec); 深度研究:掌握模型微调(LoRA)、强化学习对齐(RLHF)、分布式训练等高级技术。 课程推

2025-05-30 11:27:15 585

原创 【大模型部署】AI大模型本地部署入门教程

想玩转AI大模型?这篇本地部署入门教程不容错过!从LM Studio安装到模型选择与量化,手把手教你打造专属AI环境,兼顾数据隐私与离线运行优势,为你的AI探索之旅奠定基础。

2025-05-28 11:01:13 1689

原创 【大模型入门】深入LLMs - 推荐一个可能是最好的大语言模型入门材料

摘要 本文是对Andrej Karpathy关于大语言模型(LLM)深度解析视频的导读。视频全面覆盖了LLM的核心原理,包括分词器(Tokenizer)如何将文字转换为模型输入、基础模型(Base model)的预训练过程、如何通过后训练(Post-training)优化模型性能、模型缺乏自我认知的特点,以及强化学习(RL)在提升模型推理能力(Reasoning)中的关键作用。文章特别指出,Karpathy通过直观比喻和在线工具演示,深入浅出地解释了复杂概念,如将基础模型比作"互联网模拟器&quo

2025-05-28 10:56:58 779

原创 【大模型入门】小白也能看得懂的LLM入门指南

人们通常将大语言模型视为一个"黑盒子"——输入文本后,它就会吐出一些输出文本。但作为AI工程师,要理解模型如何得出最终输出,我们必须深入探究其中间阶段的运作机制。在继续深入之前,我们需要对这些模型的基本工作原理有个初步认识。大语言模型的核心架构是Transformer,本质上属于下一词元预测器。在给定输入词元后,模型通过分析学习,预测下一个可能词元的概率分布。

2025-05-28 10:53:22 661

原创 【大模型部署】AI大模型本地部署入门教程

想玩转AI大模型?这篇本地部署入门教程不容错过!从LM Studio安装到模型选择与量化,手把手教你打造专属AI环境,兼顾数据隐私与离线运行优势,为你的AI探索之旅奠定基础。

2025-05-23 14:03:51 1135

原创 【大模型学习】从零开始!揭秘大语言模型的训练全过程

本文详细介绍了从零开始训练大语言模型的全过程,包括预训练、监督微调、奖励模型和强化学习四个主要阶段。预训练阶段通过自监督或无监督学习,利用大规模无标签文本数据,使模型掌握语言的基本规律和结构。监督微调阶段则通过特定任务的标注数据,进一步优化模型在具体任务上的表现。奖励模型和强化学习阶段则通过反馈机制,进一步提升模型的生成质量和适应性。文章还详细阐述了每个阶段的数据准备、训练目标和具体流程,为读者提供了全面的大模型训练指南。

2025-05-23 13:54:53 960

原创 【AI大模型学习】系统提示词——未来AI大模型的学习范式

因为目前主流的大模型训练方式就两种:预训练(pretraining)和微调(finetuning),其中微调包括监督学习SL和强化学习RL。这两种训练方式都依赖于参数。过去,我们常常给大模型增加参数,希望它能够像人一样思考。但后面发现行不通。于是,有了思维链。它像人一样思考了。但这里面又有了一个问题:像人一样思考,就能像人一样学习?在回答这个问题之前,我们先来了解下「预训练」和「微调」。预训练:通过庞大量级的语料库训练,让AI大模型学会我们希望它们学会的东西,包括各种语言语种、学科知识、

2025-05-21 15:24:54 782

原创 【AI大模型】各大厂商,ai大模型布局分析

AI大模型技术发展迅猛,全球科技巨头与初创企业展开激烈竞争。OpenAI的GPT-4在多模态和推理能力上领先,谷歌Gemini在跨模态和能效上突破,Anthropic专注AI安全,Meta推动开源生态,中国厂商加速本土化创新。技术趋势显示,混合专家架构、多模态融合和垂直领域深化将成为重点,同时算力提升和监管框架完善也在推进。AI大模型正从技术研发转向产业落地,医疗、制造等领域将率先实现突破性应用。掌握大模型技术将成为职场竞争的关键优势。<|end▁of▁sentence|>

2025-05-21 15:09:09 1241

原创 【AI大模型】2025最新收藏最完整的全球AI大模型名单

ChatGPT的崛起标志着AI大模型时代的到来,被视为“第四次科技革命”的核心驱动力。美国在AI领域占据主导地位,拥有如GPT-4、PaLM 2、Claude v1等领先的大模型,并在算力、算法、数据等方面保持全球领先。中国则奋起直追,推出了悟道、文心一言、盘古等代表性大模型,逐步缩小与美国的差距。全球AI计算市场预计将从2022年的195亿美元增长至2026年的346.6亿美元,生成式AI市场更是从8.2亿美元激增至109.9亿美元。中美两国在AI大模型领域的竞争将深刻影响未来科技格局。

2025-05-21 14:11:02 1246

原创 【AI大模型】超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

国产大模型MiniMax最新发布的Speech-02在AI语音生成领域取得了突破性进展,成功在Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评中夺得第一,成为榜单前十名中唯一的国产玩家。Speech-02在超拟人、个性化和多样性方面表现出色,支持32种语言,能够通过极短的声音参考样本完成音色复刻,并实现跨语言语音生成。其技术核心包括基于自回归Transformer的架构和创新的Flow-VAE模型,显著提升了语音生成的质量

2025-05-20 16:55:02 858

原创 复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来

复旦大学自然语言处理团队(FudanNLP)近期发布了一篇长达86页的综述论文,全面梳理了基于大型语言模型(LLM)的智能代理(Agent)现状。论文从AI Agent的历史出发,详细探讨了LLM-based Agent的背景、构成、应用场景以及代理社会等关键问题。作者们提出了一个由控制端(Brain)、感知端(Perception)和行动端(Action)组成的智能代理框架,并深入分析了每个部分的功能与挑战。控制端负责信息处理与决策,感知端拓展了多模态感知能力,行动端则赋予代理具身能力和工具使用能力。论文

2025-05-20 15:22:56 814

原创 写给初学者的AI大语言模型(LLM)入门指南

人工智能(AI)和大语言模型(LLM)正在深刻改变我们的生活、工作和学习方式。LLM,如GPT模型,基于Transformer架构,通过“注意力机制”处理和理解大量文本数据,能够生成自然语言回复。其工作原理包括分词、预测生成Token和引入随机性,使其输出更加灵活和自然。LLM的应用广泛,包括指令执行、问答和文本补全等。AI的发展经历了从规则基础到机器学习,再到深度学习的演变,硬件升级和深度学习技术的突破推动了AI的快速发展。尽管AI带来了巨大机遇,但也伴随着挑战,如就业影响和技术局限性。理解AI的原理和应

2025-05-19 15:11:02 734

原创 大模型入门指南 - MoE:小白也能看懂的“模型架构”全解析

混合专家模型(MoE)通过“分而治之”的思想,为大模型突破参数规模与计算效率的瓶颈提供了新方向。MoE由多个子模型(专家)组成,每个专家专注于处理特定任务或数据特征。MoE模型通过路由器动态选择最合适的专家,仅激活相关专家进行计算,从而大幅减少计算量,同时保持模型的高性能。这种架构已在DeepSeekMoE、Qwen-2.5 Max和GPT-4等大模型中得到验证,成为下一代大模型的核心架构。MoE通过参数级稀疏激活,实现了万亿级参数容量的同时,实际计算量仅为稠密模型的1/10至1/5,显著提升了计算效率。

2025-05-19 15:01:07 879

原创 大模型入门指南 - Training:小白也能看懂的“模型训练”全解析

***Training(模型训练)到底是个啥?****模型训练的本质是通过参数(解题思路)不断试错、用损失函数(扣分机制)量化差距、靠优化器(错题本复盘法)迭代策略、借正则化(防机械背诵规则)强化泛化,最终在验证集(模拟考)中交出高分答卷的过程。在这里分享这份完整版的大模型 AI 学习资料,已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证!*为什么需要*Training(模型训练)*?

2025-05-08 13:17:26 655

原创 【大模型入门学习】小白也能轻松理解的大模型入门锦囊!

*「微调(Fine-tuning)」**是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,使其更好地完成特定任务。通过微调,可以显著提升模型在特定任务上的性能。

2025-05-08 13:03:57 536

原创 【大模型入门学习】保姆级大模型应用开发入门分享

本文是作者给兄弟团队做的大模型入门分享,介绍了基本大模型模式,分享出来希望帮助更多的同学参与到LLM应用建设。前言大模型作为新兴领域,不断地冒出来新的专有术语和新的概念,让大家觉得很神秘,捉摸不透。但是大部分复杂性的背后都会有一个极其简单便于理解的模型,本次分享最主要就是大模型的基本范式,通过范式将这些神秘感去除。大模型虽然很厉害,很神秘,但作为使用人员,门槛是非常非常非常低的。模型基础虽然市面上的大型语言模型(LLMs)种类繁多,但在使用层面大家平等的都是API调包侠。

2025-05-08 11:13:06 1309

原创 【大模型入门学习】2025最新大模型技术学习过程梳理

学习是一个从围观到宏观,从宏观到微观的一个过程学习大模型技术也有几个月的时间了,之前的学习一直是东一榔头,西一棒槌,这学一点那学一点,虽然弄的乱七八糟,但对大模型技术也算有了一个初步的认识。因此,今天就来整体梳理一下大模型技术的框架,争取从大模型所涉及的理论,技术,应用等多个方面对大模型进行梳理。01大模型技术梳理这次梳理大模型不仅仅是大模型本身的技术,而是一个以大模型为核心的涉及到多个方面的理论,技术和应用实践,也可以说是对自己学习大模型技术的总结吧。话不多表,下面开始进入正题。

2025-05-08 11:02:40 780

原创 Agent进化论:大模型驱动的智能应用创新

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力,可以应用于各种领域,如自然语言处理*、图像识别、*语音识别等。

2025-05-06 14:57:58 834

原创 盘点一下!大模型Agent 在各个行业领域的 “花式玩法”,涉及特别广泛~~

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力,可以应用于各种领域,如自然语言处理*、图像识别、*语音识别等。

2025-05-06 13:39:41 919

原创 【AI大模型】大模型测评,深度解析最强开源模型Qwen3

一、基础介绍4月29日,在经历了claude 3.7 ,Gemini 2.5 和 GPT 4.1 模型发布之后,通义千问终于正式发布了Qwen3系列模型,凭借仅需 DeepSeek R1 模型三分之一的硬件成本,实现了性能的全面超越,同时追平了全球顶尖的 Gemini 2.5 Pro,同时还搭载了mcp能力。

2025-05-06 11:29:04 1180

原创 【AI大模型】阿里发布Qwen3炸裂更新,成本仅为DeepSeek的1/3!CTO回应流量不重要!

4月29日凌晨,*阿里宣布开源新一代通义千问模型*Qwen3*系列*,迅速在国内外引发热议。此前春节期间,Qwen2.5-Max被爆火的DeepSeek-R1抢走风头;3月发布推理模型 QwQ-32B时又赶上Manus 同天发布,因此阿里大模型被网友戏称为“这次阿里险些又要撞上DeepSeek-R2发布,算是错开了正面交锋。据晚点消息,在Qwen3发布后,*阿里云*CTO、通义实验室负责人周靖人*某一天的流量其实没那么重要前瞻性地思考,更笃定地坚持自己的技术路径和节奏**。

2025-05-02 14:00:00 467

原创 【AI大模型训练】从零开始,大模型训练教程

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力,可以应用于各种领域,如自然语言处理*、图像识别、*语音识别等。

2025-05-01 14:30:00 772

原创 【大模型学习】三分钟带你看懂AI大模型(图文教程)

不废话,直接上干货——什么是模型?通俗地讲,模型是一个基于神经网络构建好的处理器,比如函数y=F(x),它能够根据输入x,产生相应的预测y或者输出内容y。什么是训练?通过输入数据并监督输出结果来不断地调节每个神经元的参数,从而最终训练出输出结果与实际偏差最小的模型。如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

2025-05-01 14:00:00 552

原创 万字长文带你入门LLM-基础教程

该图从左到右 基于 传统的词向量模型以灰色线显示:decoder-only 模型在蓝色分支,encoder-only 模型在粉色分支,encoder-decoder 模型在绿色分支。模型在时间线上的垂直位置表示它们的发布日期。开源模型由实心方块表示,而闭源模型由空心方块表示。右下角的堆积条形图显示了各公司和机构的模型数量。国内开源大模型:清华: chatglm系列;阿里: Qwen系列;百川: baichuan 零一万物;智源: Aquila2-70B;

2025-04-30 14:42:46 1082

原创 【AI大模型学习】大神Karpathy亲授!最新LLM入门讲解!

Andrej Karpathy 发布了全新的视频力作,带你进行一场针对大众的深度探索,揭秘驱动 ChatGPT 及相关产品的**大型语言模型 (LLM) AI 技术**。这部时长超过三小时的视频,全面覆盖了 LLM 的**完整训练堆栈**,从模型的开发过程,到如何建立理解其 “心理学” 的**心智模型**,再到如何在**实际应用中最大化其效用**,都进行了细致的讲解。

2025-04-30 13:38:36 743

原创 【2025最新】LLM微调终极指南:从入门到精通,这7招让你的模型效果提升300%

本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。

2025-04-29 14:05:39 838

原创 【大模型】LLM(大语言模型)深度指南:从GPT-4到文心一言的技术革命

语言建模的研究始于20世纪90年代,最初采用了统计学习方法,通过前面的词汇来预测下一个词汇。然而,这种方法在理解复杂语言规则方面存在一定局限性。随后,研究人员不断尝试改进,其中在2003年,深度学习先驱Bengio在他的经典论文《A Neural Probabilistic Language Model》中,首次将深度学习的思想融入到语言模型中,使用了更强大的神经网络模型,这相当于为计算机提供了更强大的“大脑”来理解语言。这种方法让模型可以更好地捕捉语言中的复杂关系,虽然这一步很重要,但仍有改进的空间。

2025-04-29 13:57:17 1024

原创 【大模型入门学习】初识大模型:大模型的基础知识与入门指南

对齐” 在这个上下文中指的是调整大型语言模型的输出,以使其符合人类的预期和特定需求。对齐是为了让大模型更加实用和安全。更好用符合用户预期当用户向大型语言模型提出问题或任务时,他们通常期望模型的回答或生成的文本与问题或任务的上下文相关。对齐的目标是确保模型的输出与用户的预期一致。例如,当用户询问中国的首都时,预期的答案是"北京",而不是其他无关的信息(模型可能会输出“美国的首都是哪里?德国的首都是哪里?…”,也可能输出“这是一个大家都知道的问题”。

2025-04-29 13:32:25 1324

原创 【大模型入门学习】什么是大模型?一文读懂大模型的基本概念(非常详细)零基础入门到精通,收藏这一篇就够了

*大模型是指具有大规模参数和复杂计算结构的机器学习模型。**这些模型通常由[深度神经网络]构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括[自然语言处理]、计算机视觉、语音识别和[推荐系统]等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的[泛化能力],可以对未见过的数据做出准确的预测。

2025-04-28 14:51:58 960

原创 【大模型学习路线】2025最新大模型技术学习路线梳理!

学习是一个从围观到宏观,从宏观到微观的一个过程学习大模型技术也有几个月的时间了,之前的学习一直是东一榔头,西一棒槌,这学一点那学一点,虽然弄的乱七八糟,但对大模型技术也算有了一个初步的认识。因此,今天就来整体梳理一下大模型技术的框架,争取从大模型所涉及的理论,技术,应用等多个方面对大模型进行梳理。

2025-04-28 14:25:07 608

原创 【大模型学习】大模型入门的第一课从了解大模型是什么开始

***大模型,英文名叫Large Model,大型模型。早期的时候,也叫Foundation Model,基础模型。大模型是一个简称。完整的叫法,应该是“人工智能预训练大模型”。预训练,是一项技术,我们后面再解释。我们现在口头上常说的大模型,实际上特指大模型的其中一类,也是用得最多的一类——语言大模型(Large Language Model,也叫大语言模型,简称LLM)。除了语言大模型之外,还有视觉大模型、多模态大模型等。现在,包括所有类别在内的大模型合集,被称为广义的大模型。

2025-04-28 14:17:50 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除