- 博客(640)
- 收藏
- 关注
原创 GitHub爆火!Happy-LLM项目解析:大模型学习=未来10年最硬核技能!
很多小伙伴想要深入了解大语言模型的原理和训练过程。那么今天给大家分享一个宝藏大模型项目!!
2025-06-04 14:46:19
254
原创 如何从零开始训练大模型?
大模型训练优化方向探讨:从小模型潜力到训练策略 近期围绕MiniCPM等小模型性能突破的讨论显示,在现有参数规模下,模型训练仍有优化空间。关键发现包括: 数据质量比数量更重要:高质量数据生成(PHI式)和清洗成为提升小模型性能的有效途径,天工开源数据被视为基础样本标杆。 训练阶段分化:业界普遍将训练分为快速收敛、稳定和退火三阶段,MiniCPM验证了末期加入高质量样本的"教科书学习"效果显著。 评估方法待突破:现有指标难以精准衡量小模型训练充分性,Yi-9B提出的层间cos分析法引发讨论
2025-06-04 14:41:03
784
原创 从入门到上手,大模型学习全路径指南(附实战项目推荐)
本文系统介绍大语言模型(LLM)的学习路径与实战方法。首先强调理解Transformer架构、编码方式等基础原理的重要性,然后提出微调的"七阶段工作流"和"八种方法"框架,推荐新手优先掌握Prompt Tuning+LoRA等轻量级方案。最后提供包含数据预处理、微调代码、Prompt设计等完整内容的新闻分类实战项目,并给出"先原理后实践"等学习建议。文末附赠LLM大模型学习资源包,适合零基础到进阶开发者参考。
2025-05-29 20:29:20
1193
原创 流行的 RAG 框架:RAGFlow与Dify框架对比分析
RAGFlow与Dify框架对比:企业知识库构建方案 本文对比了两种AI框架在企业知识库建设中的适用性。RAGFlow专注于深度文档理解和混合检索技术,擅长处理多模态数据;Dify则以低代码开发为特色,支持多种大模型和可视化工作流编排。分析表明,Dify因其低门槛开发、灵活模型支持和易部署维护等优势,更适合大多数企业构建内部知识库。文章还提供了大模型学习路线和实战案例资源,帮助开发者快速掌握相关技术。 关键点: RAGFlow强在文档检索与理解 Dify优势在于易用性和快速部署 企业知识库推荐采用Dify方
2025-05-29 20:24:05
720
原创 99%的人都应该看看这本书,精简小册子让你快速跨入大模型的世界
最近在高铁上用4个小时读完了《大模型应用开发极简入门》,这本书是面向想要快速了解大模型(如GPT-4、ChatGPT)并直接开始应用开发的读者量身打造的。书中的内容通俗易懂、结构清晰,从基础概念到实际应用案例都有详尽讲解,非常适合初学者阅读。
2025-05-29 20:18:24
760
原创 大模型推理的全面总结: 从DeepSeek->Kimi->豆包->Qwen3
近期关于大语言模型(LLM)推理能力的研究进展显示:强化学习(RL)虽然能优化模型输出分布,但并未实质性提升基础推理能力。DeepSeek-Math和清华团队的研究均指出,RL主要通过筛选已有正确答案来提升表现,而非扩展模型的推理边界。主流模型如Seed-Thinking-v1.5、DeepSeek-R1、Kimi-K1.5和Qwen3通过多阶段训练(数据优化、奖励模型设计、混合专家架构等)注入推理能力,其共性在于:强基础模型、高质量训练数据(覆盖广泛领域和难度)、针对性奖励机制以及SFT与RL的协同优化。
2025-05-28 17:22:36
830
原创 大模型RAG实战:全面讲解RAG技术原理、实战应用(附PDF书籍)
这是一本全面讲解RAG技术原理、实战应用与系统构建的著作。作者结合自身丰富的实战经验,详细阐述了RAG的基础原理、核心组件、优缺点以及使用场景,同时探讨了RAG在大模型应用开发中的变革与潜力。书中不仅揭示了RAG技术背后的数学原理,还通过丰富的案例与代码实现,引导读者从理论走向实践,轻松掌握RAG系统的构建与优化
2025-05-28 17:21:08
820
原创 如何从零开始搭建一个完整的MCP客户端
MCP客户端是AI应用程序(如Cursor)内的一个组件,它通过模型上下文协议(MCP)与外部工具和数据源建立标准化连接。今天,我们将向您展示如何100%本地构建它。技术栈:使用LlamaIndex构建MCP驱动的代理。使用Ollama本地服务Deepseek-R1。使用LightningAI进行开发和托管。
2025-05-23 11:25:56
765
原创 我是如何准备大模型算法岗面试的?
很多人问我如何准备大模型的面试,分享下我的经验 针对两种情况: 1. 有大模型实习 2. 无大模型实习 针对无大模型实习的情况,我建议先找一段中厂实习为主,比如 zhipu、Minimax (当然有大厂进大厂)这些,相对容易进,尽量积累大模型实习经历。
2025-05-23 11:19:47
1010
原创 AI Agent的五层难度进阶:从工具调用到系统构建(附代码实现)
在人工智能领域,代理(Agent)的开发始终是一个充满挑战与机遇的方向。当开发者们雄心勃勃地启动第一个代理项目时,往往会被“智能体”的概念所迷惑——误以为编写几个提示词、串联几次工具调用就能构建出真正具备自主性的代理。然而,现实往往泼来冷水:看似正常运行的原型,可能在遇到边缘情况时瞬间崩溃,暴露出“伪智能”的本质——没有真实状态管理、缺乏记忆能力、更不具备深度推理逻辑,不过是一个精心包装的提示词循环链。
2025-05-23 11:08:07
684
原创 解决小规格 LLM 6类幻觉的实用指南
LM中的幻觉有多种不同的形式,例如以下几种:• 事实幻觉:表现为输出错误回复或捏造答案,可通过RAG解决• 时间幻觉:表现为将陈旧或过时的知识作为当前知识,可通过时间感知提示解决• 上下文幻觉:表现为在回复中增加上下文中未提及或暗示的概念,可通过 Lookback Lens(一种基于回溯比例的检测器)解决• 语言幻觉:表现为回复的内容语法上没有问题但语义上没有意义,可通过语义连贯过滤解决• 外在幻觉:表现为回复为源文档不支持的内容,可通过拷贝/指针机制解决• 内在幻觉:表现为自相矛盾的答案,可通
2025-05-23 11:03:38
729
原创 40页!这是我见过的讲解大模型最易懂、也最漂亮的PPT(完整版)(介绍篇、使用篇、开发篇、扩展篇、应用篇、展望篇)
一共包含六个篇章(介绍篇、使用篇、开发篇、扩展篇、应用篇、展望篇),分享给大家
2025-05-23 10:50:44
506
原创 大模型外挂(向量)知识库
就目前而言如果我们想往大模型里边注入知识,最先能想到的就是对大模型进行微调。笔者曾实验过,只用几十万量级的数据对大模型进行微调并不能很好的将额外知识注入大模型,笔者在算力这方面囊中羞涩,只有4块卡,这几十万量级的数据训练6B的模型都要训练好几天。。。如果不微调的话,其实还是可以利用外挂数据库的方式让大模型利用额外的知识的,比如向量数据库或者是图数据库,本文主要讲解大模型如何外挂向量数据库,外挂图数据库如果之后有时间,实践之后再分享出来。
2025-05-15 21:47:14
687
原创 程序员如何转行大模型?五大热门岗位推荐,IT行业最后的风口就在大模型!错过就难有下次了
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;他们通常处理更复杂的数据类型,如图像、视频和音频,并开发能够处理这些数据的先进模型。
2025-05-09 23:01:36
688
1
原创 喝下这一碗模型汤,掌握向量模型的训练秘方
那些曾在KDD时代Kaggle上打榜刷分的老炮儿,每每提起 Bagging 与 Boosting 这两项技术嘴角都压不住笑。如果说Ensemble Learning代表了上个时代的机器学习,那么**“模型汤**就是当下大模型时代的热门:通过把不同模型调和在一起,从而得到一个效果更佳、表现更稳的新模型。就像做一锅蔬菜汤,把各种不同的食材混合在一起,味道会比单一食材更丰富、更美味。
2025-05-09 22:59:38
750
原创 太上头了[特殊字符]飞机上一口气读完AI神书
入门时看过一遍这本书,这几天二刷发现个事儿,之前面试的时候好多问题就是出自这里😂作者Denis Rothman是拥有丰富的AI领域经验大佬,为Moët et Chandon提供NLP聊天机器人,为空客公司提供AI战术防御优化器等。他亲撰的这本《RAG-Driven Generative AI》堪称AI界“神书”,能够让读者掌握如何实施Transformer来solve NLP问题。🔹介绍了Transformer架构的基本原理,还详细讲解了如何基于ChatGPT和GPT-4等大模型进行自然语言处理任务的开
2025-05-08 14:02:36
793
原创 我花了30分钟,搭好一个本地能跑起来的大模型,飞机上都能用
量化就是把AI模型中的数字变得更"简单"。原本模型里的数字精确到小数点后很多位,量化后用更简单的数字代替,这样可以让模型变得更小,运行更快。
2025-05-08 13:55:59
596
原创 月薪已炒到6W?强烈建议大家冲一冲这个新兴领域!
2025年,AI大模型不仅在,也在等待程序员们的,现在会用MCP都已经不是新鲜事了,更何况**曾经热门的开发框架、大数据工具等,已不再是就业的金钥匙。**制造、医疗、金融等各行业都在加速AI应用落地,未来企业更看重能用AI大模型技术重构业务流的人才。最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但,有3-5年经验,大厂薪资就能给到!风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握,“顺风”翻盘!
2025-05-07 21:40:53
1133
原创 思考:Qwen3是如何实现混合推理(快慢思考)的?
上面都是我个人的一些分析与推测,并没有官方背书,所以也许我的内容会出现一些问题。欢迎大家交流与讨论!读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!😝有需要的小伙伴,可以保存图片到wx扫描二v码。
2025-05-07 21:38:31
668
原创 大模型面试题合集,大模型面试八股文
以下是针对大模型(如GPT、LLaMA、PaLM等)技术面试的八股大纲,涵盖核心概念、原理、训练技巧、应用及优化方向等内容,帮助系统化准备面试:
2025-05-06 13:48:37
549
原创 RAG现有框架总结:7个GraphRAG+17个传统RAG | 推荐收藏_kotaemon ragflow
传统的RAG(Retrieval-Augmented Generation)框架,是一种集成了多个关键环节的综合体系,这些环节包括文本切块(Chunk)、向量转换(向量化)、数据存储、信息检索、二次排序、内容生成、内容评估等。该框架的精髓在于能够灵活适应各种策略,例如文档处理方法和检索策略等。其中,具有代表性的实现有RAGFlow(专注于深度文档理解)、QAnything(引入重排序 Rerank 机制)以及高度可配置的 Dify 等。这些实现虽然在细节上有所差异,但基本原理相似。
2025-05-06 12:00:04
978
原创 2025,我(普通人)学习大模型的方法和步骤
一开始,我对大模型的认知,是停留在ChatGPT的使用上,只知道大模型可以对话聊天,像一个真人,感觉很神奇,但是不知道是怎么实现的。其实调用接口,接入自己的系统,这个是很简单的事情,通过看接口文档,正确传参数就可以了。通过搜索发现,有ChatGPT,DeepSeek,文心一言,通义千问,豆包,KIMI,讯飞等。然后我分别试用了一下,对于我这种不用也不想用科学上网的人来说,ChatGPT等国外的也就跳过了(包括我后面对大模型的使用和微调,也是都选用国内的工具来完成),那些没有免费试用额度的也跳过了。
2025-05-06 11:55:34
784
原创 本地部署多模态大模型,并结合Open-WebUI和Dify实现多模态对话、智能体,保姆级!
Ollama是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。Open WebUI(前身为Ollama WebUI)是一个专为大型语言模型(LLM)设计的可扩展、功能丰富且用户友好的自托管Web管理工具,旨在为用户提供直观、高效的大模型交互体验。本文主要介绍了如何在本地安装Ollama、Open-WebUI,并介绍了Open-WebUI、Dify结合Ollama的一些玩法,还有更多高阶功能等待你去探索。
2025-05-06 11:24:22
1522
原创 全网催更的大模型爆款书《从零构建大模型》,中文版来了!
2025 年,人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷,不断刷新人们对 AI 能力的想象。而支撑这一切的,正是大语言模型(LLM)——这个曾经只是大厂的专属!
2025-04-23 21:39:23
1119
1
原创 大模型训练为啥要分为预训练、后训练与微调3个阶段?
大模型训练的三个阶段——预训练、后训练和微调,是构建高效、智能且适应性强的模型的关键步骤。预训练为模型奠定了通用知识基础;后训练强化了模型在特定领域的专业能力;微调则使模型能够精准适配具体任务。这种分阶段的训练策略不仅提高了资源利用效率,还逐步提升了模型性能,增强了模型的适应性和灵活性。
2025-04-23 21:36:18
785
原创 斯坦福李飞飞最新巨著《AI agent综述》_李飞飞 ai agent 综述
AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》这份综述深入探讨了多模态人机交互(Human-Computer Interaction, HCI)的当前发展状态和未来的研究方向。多模态HCI旨在通过语音、图像、文本、眼动和触觉等多种信息模式来实现人与计算机之间的信息交换,这种交互方式在生理心理评估、办公教育、军事仿真和医疗康复等领域具有广泛的应用前景。
2025-04-22 23:49:09
371
原创 大模型的核心之一——大模型预训练之数据预处理_大模型数据预处理
“ 训练数据的好坏,直接影响到大模型的推理质量**”**影响大模型质量的原因除了机器学习模型(模型的架构)的之外,更重要的一点就是大模型的训练数据。从某些方面来说,训练数据的质量直接决定大模型的好坏。那么怎么才能从繁杂的数据中梳理出一批高质量的训练数据是一个值得考虑的问题。
2025-04-22 23:41:23
1113
原创 好书推荐 - 《大规模语言模型:从理论到实践》附PDF
《大规模语言模型:从理论到实践》是一本由复旦大学计算机科学技术学院张奇教授领衔的团队编写的书籍,该书于2024年1月由电子工业出版社出版。这本书不仅基于作者团队在自然语言处理领域的深厚研究经验,还融合了分布式系统和并行计算的教学经验,旨在帮助读者深入理解大语言模型的原理,并提供实际操作的指导和案例。
2025-04-16 22:35:46
676
1
原创 小白也能看得懂的LLM入门指南
童年时期,我最热衷的乐趣就是拆解心爱的玩具,探究内部运作的奥秘。虽然大多数玩具最终都无法恢复原状(被我拆得七零八落),这个习惯却让我对乐高积木越来越着迷。当我第一次拥有乐高玩具时,终于明白制造商为同龄孩子们提供了多么精妙的设计——让我们能够学习、搭建并改造这个积木世界。
2025-04-16 22:29:02
775
原创 【2025年超全汇总】大模型常见面试题及详细答案解析_大模型面试题
大模型相关的面试问题通常涉及模型的原理、应用、优化以及面试者对于该领域的理解和经验。以下是一些常见的大模型面试问题以及建议的回答方式:
2025-04-12 13:35:16
1210
原创 构建企业知识库聊天机器人:Dify应用指南_dify聊天助手教程
在当今数字化时代,企业知识库的建设和维护对于提升工作效率和服务质量至关重要。AI聊天机器人作为知识库的交互界面,可以提供24/7的即时服务。本文将介绍如何使用 Dify 这一工具快速搭建企业知识库聊天机器人,它可以当你企业的职能客服,也可以做你企业内部培训的老师。相比起传统的“智能客服”,加入大语言模型后的AI客服能更清楚用户想问什么问题,在匹配你提供的知识库的内容进行回答,这样看上去会更懂用户,显得没那么智障。如果你的知识库文档比较复杂,或者每一段的内容都很多,就需要你手动操作了。
2025-04-12 13:27:16
1372
原创 大模型神书《实战AI大模型》!知名教授尤洋首发新书深入浅出热门AI大模型,从零基础到精通,看这本就够了!赶紧收藏!!!
实战AI大模型》在GPT-4的惊艳亮相之际,AI大模型成为了学界和工业界的热门话题。这些模型的复杂性和不断发展的技术为我们带来了新的挑战和机遇。人工智能正在从感知理解世界走向生成创造世界,推动产业智能化升级加速进入拐点。大模型技术正逐渐拉开生产力提升的新纪元序幕,它们通过自然语义理解,在人的自然表达和计算机的命令之间建立了桥梁,极大地提升了生产效率。这些发展不仅在技术层面上引发了革命性的变化,也在商业和日常生活中创造了无限的可能性。
2025-04-11 21:40:33
889
原创 大模型科普 | 看完即可上手DeepSeek训练,构建专属大模型,LoRA技术让你轻松训练行业大模型
微调(Fine-tuning)是指在已经训练好的大模型基础上,针对特定任务或场景进行进一步训练的过程。与从零开始训练一个模型相比,微调可以大幅降低时间、计算资源和数据的需求。举个例子,假设你有一个通用的大语言模型,它可以回答各种问题,但对医疗领域的专业术语并不熟悉。这时,你可以通过微调,用少量医疗相关的数据重新训练这个模型,让它成为一位“医疗专家”。
2025-04-11 21:32:08
792
原创 2025年,这些技术别再学了!
大家好,还记得十年前那句“”吗?现在它早已成了程序员圈子里的经典段子。在技术飞速发展的当下,曾经备受追捧的技能,如今可能已经沦为简历上的“古董”。选对赛道,比盲目努力更关键。以及为什么AI正成为程序员“逆天改命”的终极答案。Swing仍然可以用于开发桌面应用程序,但由于其性能、用户体验和技术过时等问题,它已不再是现代Java开发的首选。Bootstrap的传统用法因样式单一、体积大、难以自定义等问题逐渐被淘汰。被现代UI框架(如Ant Design、Tailwind CSS)替代。
2025-04-07 23:29:33
867
1
原创 大模型的能力和大模型应用
当然,大模型的能力一直在进化,今天的大模型和两年前的大模型可能在功能上天差地别;现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。包括作者自己也是如此。
2025-04-07 23:24:01
719
原创 AI大模型应用落地的痛点与策略分析_大模型智能体行业应用痛点
AI大模型目前正在成为企业转型升级的关键,同时,政策牵引、技术突破和转型需求等因素也驱动B端企业逐步推进了对于AI大模型的深度应用。AIGC时代的第一波浪潮是大模型的预训练和训练集群规模的不断扩大,紧随其后,第二波浪潮接踵而至,当前和未来将更加聚焦AI大模型的应用落地。算力、网络等基础设施构筑起高效的计算和存储能力,并基于自然语言处理、算法与模型优化等底层技术保障大模型稳定运行,在此基础上,通用大模型能力逐步完善,并基于专业领域数据涌现出垂直行业和细分场景大模型。
2025-03-28 23:44:03
924
原创 斯坦福李飞飞最新巨著《AI agent综述》_李飞飞 ai agent 综述
AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》这份综述深入探讨了多模态人机交互(Human-Computer Interaction, HCI)的当前发展状态和未来的研究方向。多模态HCI旨在通过语音、图像、文本、眼动和触觉等多种信息模式来实现人与计算机之间的信息交换,这种交互方式在生理心理评估、办公教育、军事仿真和医疗康复等领域具有广泛的应用前景。
2025-03-28 23:43:01
440
原创 干货:中科院出品 DeepSeek-V3/R1 满血版 671B 全参数微调指南发布:本地化部署和微调的权威参考来了!
在大模型应用快速发展的背景下,如何高效地进行本地化部署,让企业和研究机构能够在自有算力环境中稳定运行和微调大模型,成为当前的技术挑战。DeepSeek-V3/R1 671B 满血版 的全参数微调方案,正是针对这一痛点,由中国科学院自动化研究所与中科闻歌联合推出的一份 完整的开源指南(DeepSeek-671B-SFT-Guide),为有本地化部署需求的团队提供了从训练到推理的全流程方案,并总结了关键的优化策略和实践经验。
2025-03-24 23:31:24
826
原创 万字长文!从AI Agent到Agent工作流,一文详细了解代理工作流(Agentic Workflows)
AI Agent、Agentic AI、Agent架构和Agent工作流等概念如今备受关注,但它们究竟是什么?它们能做什么?新技术常常伴随着混乱的术语和炒作。本文将深入解析代理型AI的关键概念——代理工作流(Agentic Workflows)。
2025-03-24 23:22:44
1012
原创 2025最新最全【大模型学习路线规划】零基础入门到精通!
通过以上阶段的学习和实践,你将能够逐步掌握大模型的核心技术和应用技能,实现从零基础到精通的转变。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2025-03-22 23:52:02
947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人