- 博客(110)
- 收藏
- 关注
原创 从零开始:如何用Python训练一个AI模型(超详细教程)_python ai编程
AI“大模型”是相对于传统AI模型而言的,指的是参数规模大、学习能力强的模型。它们拥有强大的数据处理和推理能力,能够应对复杂任务。例如,GPT系列模型不仅可以完成写作任务,还能实现编程、回答问题等多种功能,表现得更加“聪明”。深度学习()是基于“神经网络”的机器学习方法,特别擅长从复杂数据中提取特征并作出精准预测。如果线性回归是“单核处理器”,那么深度学习就是“多核加速器”。它模拟人脑的神经元,用层层堆叠的“神经网络”来处理数据。换句话说,深度学习就是“开挂的人脑仿真”。输入层。
2025-05-08 16:55:37
885
原创 Spring AI 实战:第一章、Spring AI入门之DeepSeek调用_spring ai 实战第十一章、spring ai agent之知行合一
Spring AI的出现,为Java开发者提供一整套大模型应用研发基础底座,为众多Java生态企业级的应用迈向AI领域开辟一条航向;AI时代已然到来,让我们一起扬帆起航~~~
2025-05-08 16:53:27
586
原创 企业级AI开发利器:Spring AI框架深度解析与实战_spring ai实战
在人工智能技术爆发式发展的今天,Java开发者面临着一个新的挑战:如何将大语言模型(LLMs)和生成式AI(GenAI)无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案,开发者往往需要为不同AI供应商(如OpenAI、阿里云、Hugging Face)编写大量重复的接口适配代码,这不仅增加了开发成本,也限制了应用的可扩展性。Spring AI的诞生彻底改变了这一局面。
2025-05-08 16:53:01
606
原创 大模型视觉能力测评 25-04 Update
有个说法是,人类接受的外界信息,70%-80%是来自视觉。人类从幼年开始,就从最基础的分辨颜色开始练习,再到分辨图形,区分实体,理解抽象符号,再到理解文字。可以说人的智能是建立在视觉基础上的,可以推知,AI要进行更广泛的智能活动,也必须拥有类似,甚至超越人类的视觉能力。笔者曾在2024年初做过一版视觉测试(见https://zhuanlan.zhihu.com/p/688415905),然而当时的模型视觉理解能力普遍偏弱,部分模型甚至是传统OCR模型的包装,不具备稍复杂的图形推理能力。
2025-05-06 18:30:13
643
原创 《图解大模型》配套阅读——大模型面试题 200 问
本文是[《图解大模型——生成式 AI 原理与实战》]一书的配套资料。我在面试候选人和参加业内研讨会时,常常发现很多人有大量实战经验,但对模型的基本原理知之甚少。为了帮助大家更好地理解本书,也为了方便部分有面试需求的朋友更有针对性地阅读本书,围绕本书各章主题,我系统梳理了大模型领域常见的面试题。其中的大多数问题都可以在书中直接找到答案,部分进阶问题可以从本书的参考文献或网络上的最新论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。如何基于表示型模型生成的嵌入向量实现文本分类?
2025-05-06 18:29:31
632
原创 2025年大模型LLM还有哪些可研究的方向?
的大模型架构。理由很简单,文本预训练这条路快到头了,必须要另起炉灶。这也不单是数据问题,更重要的原因就如所说,文本它就不可能通向智能。文本是啥?一种高度抽象的有损压缩,大家约定俗成的一套编码。人类之所以能够理解这种编码,是因为我们先理解了世界,然后根据自己的认知,抽象出语言,再设计一套符号来表达。但是大模型正好相反,先学习文本,然后试图通过文本内在的规律,来回答关于物理世界的问题。这就好比,你让一个婴儿从出生开始,就一直被关在黑屋里,每天只学习语言文本,那他能理解外面的世界吗?明显不靠谱啊。
2025-05-06 18:28:56
909
原创 如何最简单、通俗地理解大模型?
大模型之所以可以得到“大”这样一个看起来很霸气的定语,主要是因为与之前那些神经网络模型相比,大模型有两“大”:一是训练数据“大”,二是模型本身“大”。大模型的训练数据量是非常惊人的,仅以为例,它的训练数据包含了大约4990亿个tokens,相当于数千亿个单词。这个数字可能很难直观理解,我们做个简单的比较:如果一个人阅读速度很快,每天可以读10万字,每年365天不眠不休的读书,要读完GPT-3的训练数据量大约需要10000年。
2025-05-06 18:26:40
805
原创 大模型在做RAG时,怎么处理文档中的图表呢?
最近在做一个rag项目,遇到了表格的问题,已解决,分享下解决思路。分享不易,点个关注行不行初始表格的数据如下,最终性能持续低于最优水平。具体而言,本文发现小规模 LLMs(2B)倾向于机械复制上下文中的高频动作(无视其奖励差异),这种现象被定义为频率偏差。相比之下,大规模 LLMs(27B)虽能显著减弱频率偏差,但依旧维持贪婪行为。
2025-05-05 16:01:25
975
原创 最新「大模型简史」:从Transformer(2017)到DeepSeek-R1(2025)
本文详细回顾了大型语言模型从2017年Transformer架构的出现到2025年DeepSeek-R1的发展历程,涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展,展示了LLMs在规模、性能、成本和多模态能力上的巨大进步,以及对AI领域和社会的深远影响。2025年初,我国推出了一款开创性且高性价比的「大型语言模型」(Large Language Model, LLM) — — DeepSeek-R1,引发了AI领域的巨大变革。
2025-05-05 16:00:54
1162
原创 三分钟带你看懂AI大模型(图文教程)
通俗地讲,模型是一个基于神经网络构建好的处理器,比如函数y=F(x),它能够根据输入x,产生相应的预测y或者输出内容y。
2025-05-05 15:59:53
1070
原创 AI大模型全览:国内244个大AI模型及国外汇总-1
GPT系列、Gemini系列、Claude系列、LLaMA、Copilot**以及其他一些特色模型,目的是提供一个全面的指南,帮助用户了解和使用国外的人工智能大型模型(AI大模型),以便在学术研究、教学发展等领域中应用这些技术,提高效率和创新能力。**GPT 系列模型(OpenAI):**GPT 系列模型是由 OpenAI 公司开发的一系列具有革命性的自然语言处理(NLP) 模型。
2025-05-05 15:58:48
690
原创 阿里突放大招!8 款免费大模型开放,还把快思考和慢思考结合了!
豪横的阿里又甩出王炸——通义千问Qwen3系列模型,不仅一口气推出8个不同参数规模的模型,还全部免费开放!可以说,这次阿里把不差钱做到极致,一款模型做了八个不同参数规模,小到一个AI客服大到科研团队研究任务都能应用。有能在手机平板上运行的轻量模型,0.6B、1.7B参数模型,*****写作文、翻译外文短信,画图,解数学题,甚至编代码。*****8B、14B参数的模型,适合中小企业或普通开发者。
2025-05-05 15:58:15
901
原创 《普通人的AI大模型认知科普手册》
从计算机诞生的那刻起,我们就已注定要迈入数字世界。互联网的出现,作为一级加速器,加速了这个过程;大模型,则是二级加速器,让数字世界更快降临。作为普通人,我们并不需要了解大模型如何实现。就像我们不需要知道自己的大脑内部长什么样。我们关注的是如何在生活工作学习中发挥大脑潜能。同样对于大模型,我们关心的也只有2点:1)它有什么能力,能做什么?2)如何使用它,如何驾驭它?未来,每个人都将拥有自己的**「AI大脑」**,早晚而已。觉得有用,就有所启发,就留个言你的喜欢,就是我的动力!
2025-05-05 15:56:10
738
原创 各大厂商,ai大模型布局分析
近年来,全球科技巨头和初创企业竞相投入AI大模型研发,形成了技术路径多样、应用场景丰富的竞争格局。:GPT-4(多模态)、GPT-4 Turbo(上下文扩展至128k tokens):支持文本、图像、语音交互,突破单一模态限制。:复杂数学问题解决率较GPT-3.5提升40%。:超300万开发者接入,催生超700款商业化应用。:通过ChatGPT Enterprise切入企业市场,与微软Azure深度耦合构建云+AI生态。
2025-05-05 15:50:52
777
原创 围观 Qwen 3:知乎热议下,中国大模型的新战局
4 月 29 号凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,并同步开源。(总是半夜搞大动作!)模型发布后,科技领域、AI 领域的知乎答主们第一时间体验该模型,并纷纷给出了自己的分析和思考,一起来看看吧~简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型。Qwen3 写代码能力测试来啦!简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型。主要问题出现在小球掉出了七边形,以及小球摩擦极其微弱判定为无摩擦的扣分,但整体实现效果仍然很好。
2025-05-05 15:50:16
1032
原创 应用大模型时,如何平衡部署成本高、幻觉问题与企业降本增效需求之间的矛盾?
当前企业在部署大模型时面临以下几个主要挑战:1.是模型部署的高成本和固有的幻觉问题2.是企业对降本增效和收益提升的强烈需求当大模型因幻觉问题必须配备人工修正团队时,如何处理问题爆发的非线性特征?现实中经常出现:模型或人力会有浪费,当集中出错时又处理不及时。这种波动性使得企业既无法很好的减少人力实现降本,又难以保证增效。是否有成熟的资源动态调配方案或技术补偿手段?或者说,测算大模型ROI时遇到难题:为应对幻觉问题预留的人力成本,会因问题爆发的突发性导致资源利用率低。
2025-05-05 15:49:35
756
原创 李彦宏说DeepSeek幻觉高,是真的吗?
李彦宏点名批评DeepSeek幻觉高。这回,他真的没错。但大模型的幻觉问题,又远非错与对那么简单。DeepSeek-R1作为今年年初的新晋国产开源大模型,以强大的推理能力和更懂国人的文笔,在苹果美区App免费下载排行榜上力压ChatGPT一头,甚至一度成为“AI”的代言词。然而,自从R1席卷全网后,关于它经常“胡说八道”的批评就不绝于耳,比如它实在太能编了,让人真真假假分不清。
2025-05-05 15:49:03
1023
原创 治理之智 幻觉是模型创造能力的伴生品
一是从事人工智能研发和应用的企业在技术和工程上不断探索平衡幻觉与创造性的最佳方案。同时也不应“过度宣传”产品的智能化程度,让公众认识到技术发展是长期演进的过程。二是政府侧对幻觉建立更全面、客观的认知,通过分场景治理的方式引导技术健康发展。此外,政府和媒体也要着力推动科普教育力度,让更多人客观认识到技术局限性、正视幻觉。三是重视公众在幻觉治理中的作用。公众具有用户和受众双重角色,能够直观感知内容生成质量。一方面,公众通过政府和企业的宣导提升数字素养,对模型原理有更好的理解;
2025-05-05 15:48:32
884
原创 深度解析 大型语言模型为何会胡说八道 ? 揭秘AI幻觉的生成机制
大型语言模型的幻觉,并非简单的技术漏洞,而是其生成式机制与训练流程中不可避免的副产品。理解幻觉的生成逻辑,有助于我们在金融、法律、医疗等高风险场景下更有针对性地设计防御机制与技术架构。言模型的幻觉,并非简单的技术漏洞,而是其生成式机制与训练流程中不可避免的副产品。理解幻觉的生成逻辑,有助于我们在金融、法律、医疗等高风险场景下更有针对性地设计防御机制与技术架构。在可控的知识边界内运用AI,在关键决策环节引入“人类反馈”与“事实外脑”,才是迈向高可信度AI时代的关键一步。
2025-05-05 15:47:50
1001
原创 MCP协议概念,核心标的公司梳理
MCP协议(模型上下文协议),由Anthropic提出,打破大型语言模型(LLM)与外部世界的壁垒。它以标准化通信为核心,彻底简化模型与数据源、工具、服务之间的集成,加速AI应用标准化、去中心化浪潮。东方材料:全资子公司东方超算上线“东方六合”,锚定多模型、多系统智能协同,对标国际MCP巨头。利欧股份:打响广告行业第一枪,旗下开放API工具全面支持MCP协议。恒锋信息:全国首批MCP商业化玩家,公共安全领域智能连接器已落地复用。
2025-05-05 15:47:20
764
原创 MCP不像想象的那么简单,MCP+数据库,rag之外的另一种解决方案
MCP于2024年11月25日由Anthropic官方正式提出,在24年2月份cursor添加mcp功能支持的时候,才一下子被广大开发人员面前。3月份的时候,又看到各种推文,当时就想不就是一个协议么?你这个协议又没有经过各方的认可,无非就是在多了一层标准化。不同公司的标准又不一样,就是多写两行代码的事。随着阿里的入局,我才开始重视,然后国内很多公司都开始支持MCP了。所以趁着五一假期好好的深入学习下。MCP 是一个开放协议,它为应用程序向 LLM 提供上下文的方式进行了标准化。
2025-05-05 15:46:42
1304
原创 MCP很好,但它不是万灵药|一文读懂 MCP
MCP是一种开放的技术协议,旨在标准化大型语言模型(LLM)与外部工具和服务的交互方式。你可以把MCP理解成像是一个AI世界的通用翻译官,让AI模型能够与各种各样的外部工具"对话"。
2025-05-05 15:46:08
843
原创 不要上来就大模型,从训练一个小模型开始
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。不知道大家有没有在抖音上看到过一个用四个月时间训练模型打蚊子的哥们,虽然并不知道他训练模型用了多大的数据量,但从他手动标注数据的情况下,他的数据量应该不是很大,而且他的操作好像都是在个人主机上完成的。而从学习和使用的角度来说,大模型和小模型最大的差距就是对算力的需求;不说大模型数据训练和微调所需要的资金,算力等问题,就大模型训练所需要的训练和微调数据的收集,就已经是一个很大的工程量了。
2025-05-03 18:23:50
436
原创 Reasoning涨点新方法:LLM「左右互搏」训练模型
这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。大模型的发展是当前人工智能时代科技进步的必然趋势,我们只有主动拥抱这种变化,紧跟数字化、智能化潮流,才能确保我们在激烈的竞争中立于不败之地。对于零基础或者是自学者来说,学习AI大模型确实可能会感到无从下手,这时候一份完整的、系统的大模型学习路线图显得尤为重要。
2025-05-03 18:21:37
715
原创 GRPO+LoRA:大模型训练极简方案!
✅****我是一粟,专注于智能驾驶大模型,持续分享LLM面试干货。✅****大模型1v1辅导,已帮助多名同学成功上岸offer捷报金三银四春招季,又有两位训练营同学斩获大模型offer!一个是40k某军实验室offer,另一个是第四范式~恭喜两位同学成功上岸!随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~在进行实践 GRPO 的时候,发现现存
2025-05-03 18:21:05
513
原创 大模型入门指南 - Training:小白也能看懂的“模型训练”全解析
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。**模型像****一张白纸(随机初始化参数),无法完成任何任务,Training******让模型逐步学会从输入到输出的********正确映射,******让模型从‘文盲’变成‘学霸’。**模型训练按‘数据预处理→架构搭建→参数调优→迭代验证’四步走。(篇幅有限,仅展示部分)**因篇幅有限,仅展示部分资料,需要的扫描下方二维码领取 ******Training(模型训练)到底是个啥?
2025-05-03 18:20:01
908
原创 效果惊艳!MCP+腾讯云知识引擎,一个0门槛打造专属AI Agent的神器诞生~
*1.计算机视角理解:**如果把AI大模型比作一个CPU,那么MCP就是操作系统,CPU通过一套标准化的操作系统(比如Windows),就能够调用电脑的各种软件工具,处理各种任务。腾讯云的LKE才刚刚上线MCP不久,所以目前的内置的MCP工具还不算多,只有13个,但每个都挺实用的,搭配上他们贼棒的知识库RAG能力,应该可以满足不少应用场景了。其实就是一套制定好的大模型使用工具的规则,以后不管是工具的调用方,还是工具的制作方,都按照这套规则来走,那么后续制作出来的所有工具,都能无缝接入任意大模型。
2025-05-03 18:16:08
740
原创 三分钟学会开发基于deepseek的企业本地MCP服务
以上两种实现MCP服务的方式,都可以学习下,尤其是如果你本身对fastapi比较的熟练,那么可以直接使用fastapi-mcp将服务注册为MCP server!以上代码实现了FastMCP 库来创建一个简单的 MCP 服务器,它提供一个基本的工具(工具名:crawl),用于是实现源代码的获取。使用fastspi-mcp创建一个实例化的mcp_server,将上面的fastapi服务注册为一个mcp服务,可以配置mcp服务调用的路由为http://localhost:8000/mcp。
2025-05-03 18:13:46
859
原创 MCP加持下deepseek无所不能了
简单来说,它可以帮助您轻松地将现有的 FastAPI API 接口转化为 MCP 工具,从而让支持 MCP 协议的人工智能代理和工具能够访问和使用您的 API 功能。目标: MCP 的主要目标是简化 AI 应用程序与各种外部工具和服务集成的过程,从而解决过去需要为每种 AI 应用和工具组合构建独立集成的问题(所谓的 “M×N 问题”)。(篇幅有限,仅展示部分,公众号内领取)它通过标准化 AI 应用与外部世界的连接方式,有望解决当前 AI 集成面临的诸多挑战,并推动更智能、更强大的 AI 应用的创新和发展。
2025-05-03 18:13:00
798
原创 大家觉得做一个大模型检索增强生成(RAG)系统,最难搞定的是那部分工作?
市面上现有的开源RAG各有优缺点,目前看非结构化文档召回做的最好的是RAGFlow,尤其是知识库的直接搜索功能很惊艳。比如某个企业的总部制定的章程和分公司的章程本身存在某些冲突,现实中默认分公司员工按照分公司的章程,不区分用户是谁而返回的结果可能就是不适用的错误答案。大模型的发展是当前人工智能时代科技进步的必然趋势,我们只有主动拥抱这种变化,紧跟数字化、智能化潮流,才能确保我们在激烈的竞争中立于不败之地。很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
2025-05-03 18:10:57
845
原创 手把手教你将DeepSeek集成到IDEA!开发效率翻了5倍!
大家好,我是程序员海文。最近DeepSeek非常的火爆,而我们开发中常用的是IDEA,如果将DeepSeek集成到IDEA中,一定会大大提高开发效率。Let’go!
2025-05-03 18:06:20
956
原创 激动!用DeepSeek赚了4万,手把手分享全栈开发教程!
大家好,我是程序员海文。最近DeepSeek异常火爆,我也积极的体验,研究它的API和模型,确实很Nice,搞私活真的很香。今天分享如何DeepSeek开发全栈小程序,已经完美生成,效率刚刚的。我过年的时候利用DeepSeek开发,接了十几个小的私活,已经收入4.4W+。只要方法对了,变现还是不难的。方向对了事半功倍!想学习、提高开发效率、搞私活的小伙伴都可以看下喜爱面的文章。掌握了本文的方法, 你也可以,
2025-05-03 18:04:48
716
原创 连夜读完了Qwen3的2000行代码,我画出了Qwen3的结构图
近期,Qwen 团队发布了其最新一代大语言模型 Qwen3,引起了业界的广泛关注。除了其在各项基准测试上的出色表现和对多语言、思考模式的创新支持外,其开源的代码实现也为我们提供了一个深入了解其内部结构和设计的绝佳机会。本文将基于 Hugging Face Transformers 库中的 Qwen3 实现代码,对其核心组件进行解析。
2025-05-03 18:00:53
440
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人