2025年05月_AI大模型-海文

原创从零开始：如何用Python训练一个AI模型（超详细教程）_python ai编程

AI“大模型”是相对于传统AI模型而言的，指的是参数规模大、学习能力强的模型。它们拥有强大的数据处理和推理能力，能够应对复杂任务。例如，GPT系列模型不仅可以完成写作任务，还能实现编程、回答问题等多种功能，表现得更加“聪明”。深度学习（）是基于“神经网络”的机器学习方法，特别擅长从复杂数据中提取特征并作出精准预测。如果线性回归是“单核处理器”，那么深度学习就是“多核加速器”。它模拟人脑的神经元，用层层堆叠的“神经网络”来处理数据。换句话说，深度学习就是“开挂的人脑仿真”。输入层。

2025-05-08 16:55:37 885

原创 Spring AI 实战：第一章、Spring AI入门之DeepSeek调用_spring ai 实战第十一章、spring ai agent之知行合一

Spring AI的出现，为Java开发者提供一整套大模型应用研发基础底座，为众多Java生态企业级的应用迈向AI领域开辟一条航向；AI时代已然到来，让我们一起扬帆起航~~~

2025-05-08 16:53:27 586

原创企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战

在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、Hugging Face）编写大量重复的接口适配代码，这不仅增加了开发成本，也限制了应用的可扩展性。Spring AI的诞生彻底改变了这一局面。

2025-05-08 16:53:01 606

原创大模型面经 - 腾讯混元

型目前还有哪些可以改进的点四面整体更看重思维和基础，没有考察什么八股。

2025-05-06 18:32:41 790

原创大模型视觉能力测评 25-04 Update

有个说法是，人类接受的外界信息，70%-80%是来自视觉。人类从幼年开始，就从最基础的分辨颜色开始练习，再到分辨图形，区分实体，理解抽象符号，再到理解文字。可以说人的智能是建立在视觉基础上的，可以推知，AI要进行更广泛的智能活动，也必须拥有类似，甚至超越人类的视觉能力。笔者曾在2024年初做过一版视觉测试（见https://zhuanlan.zhihu.com/p/688415905），然而当时的模型视觉理解能力普遍偏弱，部分模型甚至是传统OCR模型的包装，不具备稍复杂的图形推理能力。

2025-05-06 18:30:13 643

原创《图解大模型》配套阅读——大模型面试题 200 问

本文是[《图解大模型——生成式 AI 原理与实战》]一书的配套资料。我在面试候选人和参加业内研讨会时，常常发现很多人有大量实战经验，但对模型的基本原理知之甚少。为了帮助大家更好地理解本书，也为了方便部分有面试需求的朋友更有针对性地阅读本书，围绕本书各章主题，我系统梳理了大模型领域常见的面试题。其中的大多数问题都可以在书中直接找到答案，部分进阶问题可以从本书的参考文献或网络上的最新论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。如何基于表示型模型生成的嵌入向量实现文本分类？

2025-05-06 18:29:31 632

原创 2025年大模型LLM还有哪些可研究的方向？

的大模型架构。理由很简单，文本预训练这条路快到头了，必须要另起炉灶。这也不单是数据问题，更重要的原因就如所说，文本它就不可能通向智能。文本是啥？一种高度抽象的有损压缩，大家约定俗成的一套编码。人类之所以能够理解这种编码，是因为我们先理解了世界，然后根据自己的认知，抽象出语言，再设计一套符号来表达。但是大模型正好相反，先学习文本，然后试图通过文本内在的规律，来回答关于物理世界的问题。这就好比，你让一个婴儿从出生开始，就一直被关在黑屋里，每天只学习语言文本，那他能理解外面的世界吗？明显不靠谱啊。

2025-05-06 18:28:56 909

原创后端开发Java和大模型应用开发怎么选

别被“Agent”、“

2025-05-06 18:28:30 735

原创如何最简单、通俗地理解大模型？

大模型之所以可以得到“大”这样一个看起来很霸气的定语，主要是因为与之前那些神经网络模型相比，大模型有两“大”：一是训练数据“大”，二是模型本身“大”。大模型的训练数据量是非常惊人的，仅以为例，它的训练数据包含了大约4990亿个tokens，相当于数千亿个单词。这个数字可能很难直观理解，我们做个简单的比较：如果一个人阅读速度很快，每天可以读10万字，每年365天不眠不休的读书，要读完GPT-3的训练数据量大约需要10000年。

2025-05-06 18:26:40 805

原创大模型在做RAG时，怎么处理文档中的图表呢？

最近在做一个rag项目，遇到了表格的问题，已解决，分享下解决思路。分享不易，点个关注行不行初始表格的数据如下![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?

2025-05-06 18:23:01 958

原创如今的大模型浪潮是否是一场泡沫？

大模型最大的泡沫就是企业中高层领导脑子里面的泡沫。记得当年刚出来后，有的三低人士就去考文言文，对对联，得出结论：大模型还不如百度靠谱。这些人由于自身认知低，无法提出有意义的问题，没有认识到ChatGPT带来的革命性意义，那就是“大模型是AI第一次可以表现得像个人”。

2025-05-06 18:22:16 737

原创多模态大模型--多模态推理模型

最近出现了越来越多在多模态任务上复现R1的文章，但看下来感觉大部分工作吹的最多的还是点数的增长。笔者认为，在现有等开源基座能力知识密度还算比较足够的情况下，实现上没有问题，在可以verifiable的task出现点数的增长是无可厚非的，因为目前R1引领的rule-based RL范式可以看成进一步把CoT过程当做一种参数来优化，涨点是大概率事件。另外很多相关论文给人感觉更像是为了吃醋包了整盘饺子，给人感觉像是（

2025-05-06 18:20:59 954

原创 AI 3D建模革命！HoloPart技术开源：一键拆分、智能补全，设计师的“效率核弹”来了！

小白友好提示：**非技术用户可直接用Tripo AI的集成功能，一键体验AI拆解+编辑。

2025-05-06 18:20:24 987

原创如何系统的入门大模型？

说在前面：我觉的从开源以后，会有更多的企业和开发者争相去深入探讨它的原理和学习，也会有很多企业来部署和作用起来，接下来会是一场AI人才的抢夺战！你看看deepseek发布出来，相信很多大模型公司都坐不住了，Google，微软，包括国内的百度，阿里都有所行动，就连造车的雷布斯也挖取了天才AI少女，所以人人都有机会的。

2025-05-06 18:17:53 977

原创谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷：贪婪性策略、频率偏差以及知行差距。分析表明，由于 LLMs 过早陷入贪婪动作选择策略，导致动作覆盖率停滞（最高达 55% 未探索），最终性能持续低于最优水平。具体而言，本文发现小规模 LLMs（2B）倾向于机械复制上下文中的高频动作（无视其奖励差异），这种现象被定义为频率偏差。相比之下，大规模 LLMs（27B）虽能显著减弱频率偏差，但依旧维持贪婪行为。

2025-05-05 16:01:25 975

原创最新「大模型简史」：从Transformer（2017）到DeepSeek-R1（2025）

本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程，涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展，展示了LLMs在规模、性能、成本和多模态能力上的巨大进步，以及对AI领域和社会的深远影响。2025年初，我国推出了一款开创性且高性价比的「大型语言模型」（Large Language Model, LLM） — — DeepSeek-R1，引发了AI领域的巨大变革。

2025-05-05 16:00:54 1162

原创三分钟带你看懂AI大模型（图文教程）

通俗地讲，模型是一个基于神经网络构建好的处理器，比如函数y=F(x)，它能够根据输入x，产生相应的预测y或者输出内容y。

2025-05-05 15:59:53 1070

原创 AI大模型全览：国内244个大AI模型及国外汇总-1

GPT系列、Gemini系列、Claude系列、LLaMA、Copilot**以及其他一些特色模型，目的是提供一个全面的指南，帮助用户了解和使用国外的人工智能大型模型（AI大模型），以便在学术研究、教学发展等领域中应用这些技术，提高效率和创新能力。**GPT 系列模型（OpenAI）：**GPT 系列模型是由 OpenAI 公司开发的一系列具有革命性的自然语言处理（NLP）模型。

2025-05-05 15:58:48 690

原创阿里突放大招！8 款免费大模型开放，还把快思考和慢思考结合了！

豪横的阿里又甩出王炸——通义千问Qwen3系列模型，不仅一口气推出8个不同参数规模的模型，还全部免费开放！可以说，这次阿里把不差钱做到极致，一款模型做了八个不同参数规模，小到一个AI客服大到科研团队研究任务都能应用。有能在手机平板上运行的轻量模型，0.6B、1.7B参数模型，*****写作文、翻译外文短信，画图，解数学题，甚至编代码。*****8B、14B参数的模型，适合中小企业或普通开发者。

2025-05-05 15:58:15 901

原创《普通人的AI大模型认知科普手册》

从计算机诞生的那刻起，我们就已注定要迈入数字世界。互联网的出现，作为一级加速器，加速了这个过程；大模型，则是二级加速器，让数字世界更快降临。作为普通人，我们并不需要了解大模型如何实现。就像我们不需要知道自己的大脑内部长什么样。我们关注的是如何在生活工作学习中发挥大脑潜能。同样对于大模型，我们关心的也只有2点：1）它有什么能力，能做什么？2）如何使用它，如何驾驭它？未来，每个人都将拥有自己的**「AI大脑」**，早晚而已。觉得有用，就有所启发，就留个言你的喜欢，就是我的动力！

2025-05-05 15:56:10 738

原创各大厂商，ai大模型布局分析

近年来，全球科技巨头和初创企业竞相投入AI大模型研发，形成了技术路径多样、应用场景丰富的竞争格局。：GPT-4（多模态）、GPT-4 Turbo（上下文扩展至128k tokens）：支持文本、图像、语音交互，突破单一模态限制。：复杂数学问题解决率较GPT-3.5提升40%。：超300万开发者接入，催生超700款商业化应用。：通过ChatGPT Enterprise切入企业市场，与微软Azure深度耦合构建云+AI生态。

2025-05-05 15:50:52 777

原创围观 Qwen 3：知乎热议下，中国大模型的新战局

4 月 29 号凌晨，阿里巴巴发布了新一代通义千问 Qwen3 模型，并同步开源。（总是半夜搞大动作！）模型发布后，科技领域、AI 领域的知乎答主们第一时间体验该模型，并纷纷给出了自己的分析和思考，一起来看看吧～简单说结论——可以加显卡了，这就是可以本地部署的最强开源写代码大模型。Qwen3 写代码能力测试来啦！简单说结论——可以加显卡了，这就是可以本地部署的最强开源写代码大模型。主要问题出现在小球掉出了七边形，以及小球摩擦极其微弱判定为无摩擦的扣分，但整体实现效果仍然很好。

2025-05-05 15:50:16 1032

原创应用大模型时，如何平衡部署成本高、幻觉问题与企业降本增效需求之间的矛盾？

当前企业在部署大模型时面临以下几个主要挑战：1.是模型部署的高成本和固有的幻觉问题2.是企业对降本增效和收益提升的强烈需求当大模型因幻觉问题必须配备人工修正团队时，如何处理问题爆发的非线性特征？现实中经常出现：模型或人力会有浪费，当集中出错时又处理不及时。这种波动性使得企业既无法很好的减少人力实现降本，又难以保证增效。是否有成熟的资源动态调配方案或技术补偿手段？或者说,测算大模型ROI时遇到难题：为应对幻觉问题预留的人力成本，会因问题爆发的突发性导致资源利用率低。

2025-05-05 15:49:35 756

原创李彦宏说DeepSeek幻觉高，是真的吗？

李彦宏点名批评DeepSeek幻觉高。这回，他真的没错。但大模型的幻觉问题，又远非错与对那么简单。DeepSeek-R1作为今年年初的新晋国产开源大模型，以强大的推理能力和更懂国人的文笔，在苹果美区App免费下载排行榜上力压ChatGPT一头，甚至一度成为“AI”的代言词。然而，自从R1席卷全网后，关于它经常“胡说八道”的批评就不绝于耳，比如它实在太能编了，让人真真假假分不清。

2025-05-05 15:49:03 1023

原创治理之智幻觉是模型创造能力的伴生品

一是从事人工智能研发和应用的企业在技术和工程上不断探索平衡幻觉与创造性的最佳方案。同时也不应“过度宣传”产品的智能化程度，让公众认识到技术发展是长期演进的过程。二是政府侧对幻觉建立更全面、客观的认知，通过分场景治理的方式引导技术健康发展。此外，政府和媒体也要着力推动科普教育力度，让更多人客观认识到技术局限性、正视幻觉。三是重视公众在幻觉治理中的作用。公众具有用户和受众双重角色，能够直观感知内容生成质量。一方面，公众通过政府和企业的宣导提升数字素养，对模型原理有更好的理解；

2025-05-05 15:48:32 884

原创深度解析大型语言模型为何会胡说八道？揭秘AI幻觉的生成机制

大型语言模型的幻觉，并非简单的技术漏洞，而是其生成式机制与训练流程中不可避免的副产品。理解幻觉的生成逻辑，有助于我们在金融、法律、医疗等高风险场景下更有针对性地设计防御机制与技术架构。言模型的幻觉，并非简单的技术漏洞，而是其生成式机制与训练流程中不可避免的副产品。理解幻觉的生成逻辑，有助于我们在金融、法律、医疗等高风险场景下更有针对性地设计防御机制与技术架构。在可控的知识边界内运用AI，在关键决策环节引入“人类反馈”与“事实外脑”，才是迈向高可信度AI时代的关键一步。

2025-05-05 15:47:50 1001

原创 MCP协议概念，核心标的公司梳理

MCP协议（模型上下文协议），由Anthropic提出，打破大型语言模型（LLM）与外部世界的壁垒。它以标准化通信为核心，彻底简化模型与数据源、工具、服务之间的集成，加速AI应用标准化、去中心化浪潮。东方材料：全资子公司东方超算上线“东方六合”，锚定多模型、多系统智能协同，对标国际MCP巨头。利欧股份：打响广告行业第一枪，旗下开放API工具全面支持MCP协议。恒锋信息：全国首批MCP商业化玩家，公共安全领域智能连接器已落地复用。

2025-05-05 15:47:20 764

原创 MCP不像想象的那么简单，MCP+数据库，rag之外的另一种解决方案

MCP于2024年11月25日由Anthropic官方正式提出，在24年2月份cursor添加mcp功能支持的时候，才一下子被广大开发人员面前。3月份的时候，又看到各种推文，当时就想不就是一个协议么？你这个协议又没有经过各方的认可，无非就是在多了一层标准化。不同公司的标准又不一样，就是多写两行代码的事。随着阿里的入局，我才开始重视，然后国内很多公司都开始支持MCP了。所以趁着五一假期好好的深入学习下。MCP 是一个开放协议，它为应用程序向 LLM 提供上下文的方式进行了标准化。

2025-05-05 15:46:42 1304

原创 MCP很好，但它不是万灵药｜一文读懂 MCP

MCP是一种开放的技术协议，旨在标准化大型语言模型（LLM）与外部工具和服务的交互方式。你可以把MCP理解成像是一个AI世界的通用翻译官，让AI模型能够与各种各样的外部工具"对话"。

2025-05-05 15:46:08 843

原创不要上来就大模型，从训练一个小模型开始

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。不知道大家有没有在抖音上看到过一个用四个月时间训练模型打蚊子的哥们，虽然并不知道他训练模型用了多大的数据量，但从他手动标注数据的情况下，他的数据量应该不是很大，而且他的操作好像都是在个人主机上完成的。而从学习和使用的角度来说，大模型和小模型最大的差距就是对算力的需求；不说大模型数据训练和微调所需要的资金，算力等问题，就大模型训练所需要的训练和微调数据的收集，就已经是一个很大的工程量了。

2025-05-03 18:23:50 436

原创 Reasoning涨点新方法：LLM「左右互搏」训练模型

这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。大模型的发展是当前人工智能时代科技进步的必然趋势，我们只有主动拥抱这种变化，紧跟数字化、智能化潮流，才能确保我们在激烈的竞争中立于不败之地。对于零基础或者是自学者来说，学习AI大模型确实可能会感到无从下手，这时候一份完整的、系统的大模型学习路线图显得尤为重要。

2025-05-03 18:21:37 715

原创 GRPO+LoRA：大模型训练极简方案！

✅****我是一粟，专注于智能驾驶大模型，持续分享LLM面试干货。✅****大模型1v1辅导，已帮助多名同学成功上岸offer捷报金三银四春招季，又有两位训练营同学斩获大模型offer！一个是40k某军实验室offer，另一个是第四范式～恭喜两位同学成功上岸！随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~在进行实践 GRPO 的时候，发现现存

2025-05-03 18:21:05 513

原创大模型入门指南 - Training：小白也能看懂的“模型训练”全解析

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。**模型像****一张白纸（随机初始化参数），无法完成任何任务，Training******让模型逐步学会从输入到输出的********正确映射，******让模型从‘文盲’变成‘学霸’。**模型训练按‘数据预处理→架构搭建→参数调优→迭代验证’四步走。(篇幅有限，仅展示部分）**因篇幅有限，仅展示部分资料，需要的扫描下方二维码领取 ******Training（模型训练）到底是个啥？

2025-05-03 18:20:01 908

原创效果惊艳！MCP+腾讯云知识引擎，一个0门槛打造专属AI Agent的神器诞生～

*1.计算机视角理解：**如果把AI大模型比作一个CPU，那么MCP就是操作系统，CPU通过一套标准化的操作系统（比如Windows），就能够调用电脑的各种软件工具，处理各种任务。腾讯云的LKE才刚刚上线MCP不久，所以目前的内置的MCP工具还不算多，只有13个，但每个都挺实用的，搭配上他们贼棒的知识库RAG能力，应该可以满足不少应用场景了。其实就是一套制定好的大模型使用工具的规则，以后不管是工具的调用方，还是工具的制作方，都按照这套规则来走，那么后续制作出来的所有工具，都能无缝接入任意大模型。

2025-05-03 18:16:08 740

原创三分钟学会开发基于deepseek的企业本地MCP服务

以上两种实现MCP服务的方式，都可以学习下，尤其是如果你本身对fastapi比较的熟练，那么可以直接使用fastapi-mcp将服务注册为MCP server!以上代码实现了FastMCP 库来创建一个简单的 MCP 服务器，它提供一个基本的工具（工具名：crawl），用于是实现源代码的获取。使用fastspi-mcp创建一个实例化的mcp_server，将上面的fastapi服务注册为一个mcp服务，可以配置mcp服务调用的路由为http://localhost:8000/mcp。

2025-05-03 18:13:46 859

原创 MCP加持下deepseek无所不能了

简单来说，它可以帮助您轻松地将现有的 FastAPI API 接口转化为 MCP 工具，从而让支持 MCP 协议的人工智能代理和工具能够访问和使用您的 API 功能。目标： MCP 的主要目标是简化 AI 应用程序与各种外部工具和服务集成的过程，从而解决过去需要为每种 AI 应用和工具组合构建独立集成的问题（所谓的 “M×N 问题”）。（篇幅有限，仅展示部分，公众号内领取）它通过标准化 AI 应用与外部世界的连接方式，有望解决当前 AI 集成面临的诸多挑战，并推动更智能、更强大的 AI 应用的创新和发展。

2025-05-03 18:13:00 798

空空如也

空空如也