- 博客(2104)
- 收藏
- 关注
原创 LLM大模型:从新手到专家:AI大模型学习与实践完全指南
大模型,通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑,这些大脑通过阅读大量的文本、图片、声音等信息,学习到了世界的知识。这些大脑(模型)非常大,有的甚至有几千亿个参数,这些参数就像是大脑中的神经元,它们通过复杂的计算来理解和生成语言、图片等。举个例子,你可能听说过GPT-3,它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问题,然后给出回答,或者根据你给它的提示,生成一篇文章、一个故事,甚至是一段代码。
2024-09-06 10:30:00
2914
1
原创 从零到精通:详解如何训练大模型的完整指南,非常详细,收藏我这一篇就够了
尽管可以使用一些技巧方法来构造一些看起来特别平滑的指标来反对大模型涌现这个词汇,但是不可否认的事实是,在不同的尺寸变化或者数据量、计算量变化之后,人们可以非常明显地感知到大模型表现的巨大差异,这就是一个相变的结果,就像是炼制一门18连环刃的法器,从第一把的炼制到第18把,从个数的指标上来说是非常平滑的,但是从威力上来说,18把可以构建一个法阵,极大地增加了武器的威力,与之前不可同日而语。以及,另外一个可能,小模型每一层cos都小,有可能每一层在干不同的事,或者每一层都会注意到新的东西。
2024-08-21 22:06:26
3378
1
原创 【深入探讨】AI大模型的学习路径:理论构建、技术创新与应用实践
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。随着技术的不断进步和理论的不断完善,相信AI大模型学习将会在更多的领域展现出强大的应用潜力,为人类社会带来更多的便利和进步。算法优化是提升模型性能的重要手段。总的来说,AI大模型学习在医疗健康领域的应用将为医疗诊断、治疗和管理带来革命性的变革,有望提高医疗服务的效率和质量,最终造福于人类的健康。
2024-08-16 17:03:58
1875
1
原创 大模型是否值得转行?从技术壁垒到就业前景全方位解析,字节跳动2025届薪资揭秘,大模型与算法岗位薪酬丰厚
大模型开发分为算法工程师(高门槛)和应用工程师(较低门槛)两类。转行需谨慎评估个人能力与兴趣,不建议轻易放弃现有业务或技术壁垒。当前大模型虽是风口,但未来趋势难测,建议先通过业余时间尝试再决定。选择适合自身的方向比盲目追热点更重要。对于已有电商等专业背景者,深耕现有领域可能比转行更明智。
2026-01-06 22:29:43
957
原创 2026 AI 发展预测:从“爆发”走向“交付”,十大趋势全解读
2026年AI发展将进入"交付期",从内容生成转向工作流执行。关键趋势包括:Agentic AI爆发,实现任务自动分解与执行;软件开发转向AI主导的交付流程;世界模型技术提升AI的物理推理能力;具身智能在工业场景落地;算力基础设施面临电力、内存等瓶颈;端侧AI因成本隐私需求回流;网络安全攻防升级为主动预防;行业应用深化但治理挑战加剧;可信与治理成为核心竞争力;人类技能面临AI依赖与独立评估的平衡。AI竞争重点将从模型参数转向交付能力与组织管理。
2026-01-06 22:27:48
288
原创 大模型位置编码全解析:从三角函数到RoPE再到YaRN
本文系统梳理了大模型中位置编码技术的演进路线,重点分析了三角位置编码、相对位置编码和旋转位置编码(RoPE)三类方法。三角位置编码通过正弦函数周期性捕捉相对位置关系,但存在语义解耦困难;相对位置编码直接建模位置关系但受限于截断机制;RoPE创新性地采用旋转变换显式表达相对位置,兼具数值稳定性和长程依赖建模能力。文章详细推导了各类方法的数学原理,包括三角函数变换、正交矩阵性质及复数几何意义等理论基础,并指出YaRN等优化方案通过插值策略有效提升了RoPE的外推能力。理论分析与代码实现相结合,为理解大模型位置编
2026-01-06 22:18:33
193
原创 2026年AI五大趋势与底层数据革命,非常详细收藏我这一篇就够了
2025年AI技术发展呈现五大趋势:1)多语种TTS转向情感化与全双工交互,需要生动语料和交互流数据;2)多模态模型从识别升级为认知推理,依赖跨模态关联数据;3)大模型向通用推理与垂直领域深化发展,需要专业结构化数据;4)具身智能突破数字局限,要求物理交互闭环数据;5)自动驾驶转向端到端范式,需因果阐释型标注数据。数据堂作为专业数据服务商,提供覆盖这些趋势的标准化数据集与定制解决方案,支撑AI从感知到认知的能力跃迁。
2026-01-06 22:13:05
461
原创 RAG技术全解析:大模型时代不可或缺的知识增强技术
本文系统梳理了RAG技术从2020年至2025年的演进历程,指出简单的Naive RAG模式已被淘汰,真正的RAG正向深度认知和Agentic方向进化。文章通过分析代表性论文,展示了RAG在基础架构、优化增强和评估诊断等方面的重要突破,包括Atlas、HyDE、RAGAS等关键技术。未来RAG将与大模型深度融合,成为AI Agent的核心组件,实现从被动检索到主动决策的转变。研究认为RAG已从应对幻觉的权宜之计,发展为支撑AI复杂应用的关键技术基石。
2026-01-06 22:10:12
337
原创 AI产品经理与大模型学习指南:从入门到精通,这份资料包助你职场突围,AI大模型产品经理从零基础到进阶
AI产品经理与传统产品经理的核心差异在于AI思维,其工作需贯穿基础层(芯片/数据)、技术层(算法/平台)和应用层(行业解决方案)。根据技术成熟度与业务渗透力,AI产品经理可分为四类:突破型(技术攻坚)、创新型(场景落地)、应用型(技术产品化)和普及型(市场推广)。建议从业者避免常见误区(目标模糊/技术焦虑等),通过系统性学习(算法理论+行业知识+落地案例)提升竞争力。现提供包含学习路线、行业报告、视频教程的AI大模型资源包,助力技术转型与职业发展。
2026-01-05 20:48:03
784
原创 六种主流AI智能体设计模式全解析,助你轻松掌握大模型应用
本文系统介绍了六种主流的AI智能体设计模式:ReAct Agent采用推理-行动循环框架,实现多步骤任务处理;CodeAct Agent通过代码执行范式处理复杂逻辑;Modern Tool Use基于轻量级MCP协议集成工具;Self-Reflection引入自我评估机制提升输出质量;Multi-Agent Workflow通过多智能体协作解决复杂问题;Agentic RAG实现检索增强的智能化演进。这些模式各有侧重,开发者可根据实际需求灵活选用或组合,构建更强大的AI系统。
2026-01-05 20:46:12
608
原创 中国血统AI Manus被Meta收购,中美AI竞争进入中场战事
文章讲述了拥有中国血统的AI公司Manus被Meta收购事件,反映中美AI竞争的残酷现实。尽管创始人肖弘在中国获政府大力支持,但最终选择将公司迁至新加坡并屏蔽中国IP访问。这一现象凸显中国顶尖AI人才往往需要在离开故土后才能施展才能的尴尬处境,如同黄仁勋、苏姿丰等顶尖华人一样。作者将此比喻为"盐碱地里只能长出歪瓜裂枣",暗示中国人才环境存在问题。
2026-01-05 20:45:13
303
原创 从5万抢码到数十亿被Meta收购,Manus的9个月AI逆袭
2025年12月30日,全球科技界的目光被一则重磅交易锁定:社交媒体与元宇宙巨头Meta宣布,将以数十亿美元收购总部位于新加坡的AI初创公司Manus(Manus于2025年6月将公司总部从中国搬至新加坡)。这不仅是Meta历史上第三大规模的收购案(仅次于2014年190亿美元收购WhatsApp、2025年148亿美元收购Scale AI),更是一场仅历时十多天谈判便敲定的“闪电战”。
2026-01-05 20:44:20
388
原创 全网最详拆解阿里通义深度研究(DeepResearch)17篇论文技术内核
相信大家对DeepResearch的概念很熟悉了,深度研究DeepResearch是赋予LLMs自主研究能力,即能够在一系列连续动作和多样化信息源中进行规划、搜索、推理和知识合成的能力。里面的Agent,有人习惯称之为Web Agent(说的大白话点,就是给react框架挂个带网络检索工具,让agent多步搜索后整合信息去生成答案)。
2026-01-05 20:42:52
655
原创 35岁程序员转行大模型:前景分析与实战路径,助你把握技术红利_35岁程序员转行大模型前景分析与转型指南
本文针对35岁程序员转型大模型领域进行分析,指出大模型应用更看重工程经验而非数学基础,正是资深程序员的优势。文章介绍了大模型前景、薪资水平和技术路径,提供了从基础建设到项目积累的实战规划,以及如何利用现有经验构建技术组合、战略性求职等策略,强调技术变革期是重新洗牌的机会,现在入局能抓住技术红利。
2026-01-04 20:52:48
701
原创 从基础到进阶,助你成为AI大模型专家_2025最新AI大模型学习路线:(非常详细)
文章提供了从基础到进阶的大模型学习路线,包括数学基础、编程能力、机器学习、深度学习和专业知识,强调实践项目的重要性。提供了完整学习路径、640套报告合集、经典PDF书籍和实战案例资源,帮助学习者系统掌握大模型技术,提升职场竞争力,实现职业发展目标。
2026-01-04 20:51:34
636
原创 2025大模型与Agent发展回顾:从技术突破到商业应用,值得收藏的技术指南
2025年AI领域迎来两大突破:成本大幅下降与效率范式转变。国产模型DeepSeek实现技术突破,降低大模型训练成本;多智能体系统Manus引领Agent应用发展。行业竞争焦点转向推理成本、多模态能力和数据质量,垂直领域机会凸显。大厂与初创企业分化明显,生态布局成为关键。未来AI发展将更注重应用层创新,而非单纯追求参数增长,建议保持开放学习态度应对快速变化的技术格局。
2026-01-04 20:45:39
542
原创 从入门到精通:大模型技术发展的五大方向详解(建议收藏)
摘要: 大模型已成为人工智能新范式,具备规模可扩展性、多任务适应性和能力可塑性三大特征。当前技术发展聚焦五大方向:语言模型持续增强逻辑与推理能力;多模态融合实现跨模态理解与生成;智能体崛起推动任务自主执行;具身智能深化AI与机器人结合;专用模型创新加速科学应用。前沿探索包括新型学习范式、非Transformer架构及计算硬件优化,为通用人工智能发展奠定基础。
2026-01-04 20:43:10
828
原创 LLM推理加速方法-2025年终总结,非常详细收藏我这一篇就够了
文章摘要 本文探讨了大模型推理优化的多种方法,分为prefill(少算)和decoding(少传输)两个阶段。优化策略包括: 减少token输入:通过工程化手段压缩输入(如多模态降采样、RAG文本压缩、代码上下文精简); 量化:采用GPTQ/AWQ等成熟方案平衡精度与速度,但激活量化需谨慎; cache压缩/裁剪:需调整模型且可能影响效果,实用较少; MTP与推测解码:开源模型依赖性强,Ngram在特定场景有效; 模型架构优化:如MLA,仅适用于预训练大厂; 服务层优化:调度策略效果有限,cache命中率依
2026-01-04 20:41:45
658
原创 转行大模型必看!从零开始到薪资翻倍,附全套学习资源(建议收藏),我是如何成功转行进入AI大模型领域的?
本文分享了一位城市设计师转型大模型行业的成功经历,详细介绍了转行过程中的学习方法、面试技巧和职场成长经验。作者强调大模型行业需要持续学习和创新,并提供了一套完整的学习资源,包括成长路线图、专业书籍、视频教程、行业报告、实战项目和面试题等,帮助小白和程序员快速入门大模型领域,实现职业突破。
2025-12-31 15:41:25
1095
原创 技术干货:一文掌握大模型多模态:从LLM到LMM的演进与应用(建议收藏)
文章解析了LLM、VLM、MLLM和LMM四大模型概念,阐述了从纯文本处理到多模态理解的技术演进路径,介绍了各类模型的核心能力、技术特点和代表作品,并探讨了在智能教育、医疗诊断等领域的应用前景,为开发者提供了理论指导和实践方向。
2025-12-31 15:40:21
432
原创 2025大模型九大厂商全景复盘:从OpenAI到DeepSeek,2026十大趋势预判,小白程序员必学指南
2025年大模型行业竞争格局发生重大转变,从参数竞赛转向应用与生态建设。国外四大厂商(OpenAI、Google、Meta、NVIDIA)保持技术优势,国内五家企业(DeepSeek、字节、阿里、百度、腾讯)通过性价比和场景创新实现突破。OpenAI强化分层策略,Google深耕长文本场景,Meta开源战略遇挫,NVIDIA转向推理服务。国内厂商在工程优化、流量变现和垂直领域取得进展,如DeepSeek的推理性价比、字节的流量闭环、阿里的开源生态等。展望2026年,行业将呈现推理成本大幅下降、多模态技术成熟
2025-12-31 15:38:55
634
原创 用Deepseek当“杠精”,3步帮你把方案打磨到无懈可击
用Deepseek当“杠精”,3步帮你把方案打磨到无懈可击你想出一个绝妙的点子,写了一份自认为完美的方案,但总担心**有自己没想到的漏洞**,或者逻辑不够严密?发给同事或领导前,心里总是没底?你需要一个“**魔鬼代言人**”来帮你提前挑刺。今天教你用Deepseek扮演这个角色,**通过“批判性提问”和“压力测试”,3步把你的方案打磨得坚不可摧**。
2025-12-31 15:37:42
426
原创 收藏必看!2025-2026大模型技术路线:多模态突破与未来展望
本文回顾2025年大模型在多模态、开源及部署方面的突破,并展望2026年发展趋势。未来将见证ToC与ToB服务分化,左右互搏模拟数据生成技术突破,MoE路由优化能力提升,以及AI4Science领域可能出现的现象级突破,共同推动大模型技术向更高效、专业和智能方向发展。
2025-12-31 15:35:57
751
原创 大模型学习宝典:从数学基础到商业化落地方案_大模型入门学习教程(非常详细)看这一篇就够了!
本文系统介绍了大语言模型(LLM)的学习路径,包含基础理论、科学家视角和工程实践三大模块。基础部分涵盖机器学习数学原理、Python编程、神经网络和NLP核心技术;科学家模块深入解析LLM架构、数据集构建、预训练、微调和对齐等核心环节;工程师模块侧重模型评估与部署。全文提供640+报告、经典文献和商业案例等配套资源,既适合初学者建立知识体系,也可帮助开发者掌握LLM全流程技术要点,实现从理论到实践的完整闭环。
2025-12-30 17:29:02
1021
原创 大模型如何颠覆翻译行业,从CAT工具到AI同传耳机的技术演进
本文以前翻译从业者的视角,详述了AI翻译技术如何从传统工具发展到如今的同传耳机,彻底改变跨语言交流方式。大语言模型的出现使翻译质量大幅提升,从文本翻译到视频字幕,从会议记录到实时同传,AI翻译已渗透到各种场景。尽管仍存在技术瓶颈,但AI翻译正朝着更自然、普惠的方向发展,未来有望解决所有跨语言交流问题。
2025-12-30 17:27:57
659
原创 如何在 LangChain DeepAgents 中复现 Claude 的 Skills 机制 ?
摘要:本文探讨如何将Anthropic提出的"Skills"能力注入机制应用于通用AI框架。Skills通过将"怎么做"的经验打包成可复用的知识胶囊(包含描述文件和相关资源),使Agent能按需加载并遵循特定任务流程。文章以LangChain的DeepAgents框架为例,详细解析实现Skills的四个关键环节:发现识别技能、系统提示注入、渐进式加载以及任务执行。通过Middleware机制将Skills元数据动态注入系统提示,并借助文件系统工具实现技能内容的按需加载
2025-12-30 17:26:43
984
原创 从零开始:本地部署DeepSeek大模型并构建知识库的完整指南(含API调用)
摘要 本文提供了一份完整的DeepSeek大模型本地部署指南,重点介绍了使用LM Studio可视化工具部署不同规格模型的方法(1.5B-70B),并详细说明了硬件配置要求、模型下载路径及参数设置技巧。同时介绍了通过AnythingLLM构建本地知识库的扩展应用,以及在线API调用方式。教程采用图形化界面操作,步骤清晰,特别适合AI初学者快速上手体验大模型功能。文章还包含隐私保护设置建议,确保本地部署安全性。
2025-12-30 17:25:30
759
原创 珍藏必看:小白也能学会:个人电脑搭建专属AI大模型与知识库教程
本文详细介绍了在个人电脑上搭建本地AI大模型和知识库的完整流程。通过Ollama管理qwen3-vl模型,使用Cherry构建知识库客户端,配合nomic-embed-text进行文本向量化处理,最终创建出无需联网、保护隐私的专属AI助手。文章包含具体操作步骤:从软件下载安装、模型配置到知识库构建,并解释了AI大模型和向量化的基本原理。这种本地化方案解决了线上AI模型的数据隐私问题,可将个人资料转化为领域专用工具,提升工作效率。
2025-12-30 17:23:42
891
原创 2026大模型全攻略:从零基础到进阶,程序员AI学习指南_【从理论到实践】AI大模型学习路线
大模型是人工智能领域的大型预训练模型,具有强大的语言理解和生成能力。学习大模型能够紧跟技术趋势,提升就业竞争力,增强问题解决能力,促进创新。大模型在自然语言处理、内容推荐、教育、医疗等多个领域有广泛应用,是未来科技发展的重要方向。通过系统学习大模型的系统设计、提示词工程、平台应用开发等知识,结合实战项目,可以掌握大模型技术,在AI时代保持竞争优势。
2025-12-29 16:48:06
1318
原创 一文看懂上下文工程(Context Engineering)
摘要: 随着大语言模型(LLM)应用的发展,"上下文工程"(Context Engineering)概念近期引发热议。它并非全新概念,而是从提示词工程(Prompt Engineering)演进而来,核心在于如何为模型动态提供最相关的上下文信息(如RAG、记忆模块、工具调用等),以突破固定上下文窗口的限制。两者本质相同,但上下文工程范围更广,涵盖运行时信息管理、压缩优化等复杂场景。正如Andrej Karpathy所言,这如同操作系统管理内存,需精准填充上下文窗口以最大化模型效能。未来,
2025-12-29 16:46:56
649
原创 Transformer架构原理面试题详解:从零开始掌握大模型核心知识
本文详解Transformer架构的10个核心面试题,涵盖编码器-解码器差异、多头注意力机制、位置编码作用、残差连接优势、前馈网络结构、Layer Normalization选择原因等关键知识点。通过系统解析这些组件的工作原理和设计考量,帮助读者深入理解Transformer作为现代大语言模型基础架构的核心原理,为技术面试和实际应用提供扎实的理论基础。
2025-12-29 16:45:45
759
原创 8个GitHub热门开源项目助你入门大模型开发,程序员必看建议收藏!
本文精选了8个GitHub热门开源项目,覆盖无代码数据库、终端编程助手、语音AI框架、数字白板和深度检索智能模型等多个领域。其中OpenAI Codex、阿里通义DeepResearch和TEN语音AI框架与AI技术紧密相关,为开发者提供了学习大模型技术的实践机会,是提升编程技能和AI应用能力的宝贵资源。
2025-12-29 16:44:38
601
原创 大模型提示词工程全攻略:从入门到精通,值得反复学习的干货指南
本文系统介绍了大模型提示词工程的核心技术与实践方法。内容涵盖提示词设计原理、参数调优(Temperature、Top-K等)及多种提示技巧(零样本、少样本、思维链等)。通过大量实例解析,帮助读者掌握优化大模型输出的关键策略。文章还详细探讨了采样控制、输出长度配置等技术细节,并提供了Google官方指南等参考资料。适合从入门到进阶的开发者学习如何设计高效提示词,提升大模型应用效果。
2025-12-29 16:43:33
663
原创 AI如何重塑编程工作?我的氛围编程转型经验分享_程序员转行产品经理的心路历程之一
作者作为10年Android开发工程师,通过体验Copilot等AI工具带来的"氛围编程"工作方式,意识到AI正在快速改变编程行业。AI虽不能完全替代程序员,但能处理大部分实现工作。因此,作者决定从技术转向产品方向,形成"人负责判断、取舍和责任,AI负责实现、验证和加速"的新型工作分工,从"把代码写好"转向"把事情想明白"。
2025-12-28 18:17:28
663
原创 深入解析企业级多智能体系统:构建可信赖的数字员工团队
本文系统阐述了企业级多智能体系统的技术架构与核心价值。针对企业复杂业务流程需求,多智能体系统通过角色分工、协作通信与流程编排,实现专业化、可组合、可扩展的AI解决方案。文章详细解析了五层架构设计,包括基础设施层、能力支撑层、智能体运行层、编排与控制层和应用与集成层,并探讨关键挑战与应对策略,为企业AI落地提供实用指南。
2025-12-28 18:16:39
913
原创 LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法
大型语言模型(LLM)驱动的自主代理能在复杂环境中执行任务,但传统方法依赖人工构建任务数据和强化学习(Reinforcement Learning)的随机探索,导致数据成本高、探索效率低、样本利用率不足。为解决这些问题,本文提出**AgentEvolver**,一个通过**自我提问、自我导航和自我归因**三大机制实现代理自主学习的框架。实验表明,该框架在任务完成率和样本效率上显著优于传统方法,\*\*在多个基准测试中平均性能提升超过30%\*\*。
2025-12-28 18:15:37
802
原创 大模型时代AI产品经理修炼之路:产业链思维与能力提升指南_AI大模型产品经理从零基础到进阶
本文分析了AI产品经理与普通产品经理的区别,强调AI思维的重要性。系统梳理了人工智能产业链结构(基础层、技术层、应用层)和行业架构,将AI产品经理分为四类,并提供能力提升建议。最后分享了从入门到精通的大模型学习资源包,帮助不同背景读者提升AI产品能力。
2025-12-27 15:33:39
779
原创 AI产品经理转行做大模型的完整路线图与必备技能_如果你想转行做大模型,你需要具备哪些基本素质和技能?
AI产品经理转型为大模型产品经理的全面指南,涵盖必备素质、自我评估、知识学习、应用场景挖掘、团队协作及商业化策略。文章系统介绍了大模型原理、应用场景、优劣势分析,并提供了从理论学习到实践操作的七阶段路径,包括论文阅读、视频学习、开源工具实践等方法。同时强调了行业分析、用户研究等场景挖掘技巧,帮助产品经理掌握大模型技术并实现职业转型。
2025-12-27 15:32:19
591
原创 大模型能力回归发展史的深度探索
大语言模型通过预训练、有监督微调(SFT)、强化学习(RLHF) 三阶段训练,实现知识压缩与表示学习、能力注入及生成式任务提升,在 QA、文本生成、特定专业问答(如 GPT-o1 preview 物理问答达博士水平)等任务中表现亮眼(如 GPT-4 在 Wiki Bio 正向搜索准确率 99%),但存在推理能力薄弱(复杂任务准确率接近 0)、逆向知识搜索困难(非逆序预训练数据下表现差)、分布外数据处理欠佳等局限,且大规模 SFT 易破坏世界知识,未来有 “AGI 规模化发展” 和 “特定任务场景应用” 两大
2025-12-27 15:31:20
891
原创 大模型应用的加速神器:一文掌握语义缓存技术,响应时间从5秒降至0.1秒
语义缓存技术优化LLM应用性能 文章探讨了语义缓存技术在大型语言模型(LLM)应用中的重要作用。该技术通过向量数据库存储用户问题的嵌入向量和对应答案,当遇到语义相似的新问题时直接返回缓存结果,避免了重复调用LLM。这种方法能显著降低延迟(从5秒降至0.1秒以下)和成本(减少99%),同时缓解API调用限制问题。文章详细介绍了实现方法,包括使用Sentence Transformer生成嵌入、Qdrant向量数据库存储,以及通过LiteLLM框架构建缓存系统。此外,还讨论了精度与召回率的平衡问题,为优化LLM
2025-12-27 15:30:17
754
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅