自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(544)
  • 收藏
  • 关注

原创 DeepSeek源码剖析:MoE架构与MLA工程化实现全解析

本书是一本系统讲解DeepSeek源码及其核心实现原理的技术指南,内容覆盖了从基础概念到高级应用的全流程知识。全书共7章,结构层层递进。第1章对DeepSeek进行了全面概述,帮助读者构建对DeepSeek系统的整体认知。第2章聚焦于环境搭建、代码获取与模型部署接入,为后续深入研究提供基础。第3章深入探讨了MoE(混合专家模型)的基本原理、功能模块与优化技术。第4章详细解析了DeepSeek-V3模型的架构知识,并通过测试验证展示了系统的实际效果。

2025-06-07 10:24:43 675

原创 手把手教你用fastGpt + m3e模型打造企业/个人私有化知识库!超详细的本地部署教程

此时语言模型对话内容中,就可以穿插自己定义的知识库内容了,还可以发布、预览到此,就完成了基础的部署。

2025-06-05 11:13:00 1196

原创 Ollama系列03:快速上手搭建私有的AI对话框和智能体—cherryStudio版

官网介绍:CherryStudio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。CherryStudio的高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者,都能在 CherryStudio 中找到适合自己的AI功能,提升工作效率和创造力。人话版:CherryStudio 能整合多种大模型,支持声音、图片等多种类型的AI模型,可以用来构建知识库等应用。界面简单好用,小白用户也能快速上手。

2025-06-05 11:11:27 914

原创 从零开始学 Dify-扫描、加载和管理模型提供者的详细过程

Dify 项目实现了一套灵活、可扩展的大模型快速接入机制,通过分层设计和配置驱动的方式,使系统能够轻松集成各种 AI 模型提供商的服务。下面将从架构设计、核心组件、工作流程和扩展机制等方面进行详细分析。(代码版本v0.6.3,从1.0.0开始正式升级为插件机制)Dify 的大模型接入机制采用了三层架构设计,实现了模型提供者、模型类型和具体模型实例的解耦。接下来逐层进行分析。是 Dify 大模型快速接入机制的核心组件,负责扫描、加载和管理所有模型提供者。下面将详细介绍其工作原理和实现过程。

2025-06-04 11:55:38 618

原创 从零开始学 Dify-系统架构

本文将全面介绍 Dify 的系统架构,阐述了主要组件如何协同工作以提供 LLM 应用程序开发平台。涵盖了高级架构、部署选项、核心子系统以及外部集成。Dify 采用基于微服务的架构,将前端 Web 应用程序与后端 API 服务分离。该系统旨在实现可扩展性,并可在各种环境中部署,包括自托管安装和云部署。:基于 Next.js 的 Web 应用程序,为创建应用程序的开发人员和与已部署应用程序交互的最终用户提供界面。:基于 Flask 的 API 服务器,处理来自前端的请求并协调核心子系统。

2025-06-04 11:48:21 964

原创 深度复盘被大模型吞掉的核心技术栈有哪些?

***

2025-06-03 21:10:27 996

原创 手把手教你用 LoRA 微调大语言模型(附代码)

在本文中,我们探讨了 LoRA 微调方法,并以 StarCoder 模型的微调为例介绍了实践过程。通过实践过程的经验来为大家展示一些细节及需要注意的点,希望大家也能通过这种低资源高效微调方法微调出符合自己需求的模型。

2025-05-29 07:30:00 1026

原创 一文搞懂大模型的预训练、微调和蒸馏

初学者常对大模型的预训练(Pre-training)、微调(Fine-tuning)和蒸馏(Distillation)感到困惑,三者虽均属模型训练,但目标、数据和实现方式差异显著。预训练使用海量无标注标注数据(如互联网文本、图像库)进行通识教育(大学基础课程);微调使用专业领域标注数据(如医疗影像、法律文书、代码库)进行专业培训(入职后的岗位技能培训);蒸馏使用教师模型的输出(如概率分布、推理链)进行经验传承(老员工带新人)。**预训练(Pre-training)****预训练(Pre-training):

2025-05-28 10:35:19 329

原创 大模型微调知识与实践分享

本文详细介绍了大型语言模型(LLM)的结构、参数量、显存占用、存储需求以及微调过程中的关键技术点,包括Prompt工程、数据构造、LoRA微调方法等。一、微调相关知识介绍在介绍LLM的微调知识前,我们先具象的认识下大模型长什么样子,包括模型结构、参数量、精度、显存占用。

2025-05-28 10:26:08 825

原创 BAGEL:王炸!字节开源7B豆包版,对标GPT-4o与Gemini2.0的国内首个统一多模态图像编辑模型

今日文章介绍一款名为的开源统一多模态模型,这是由的最新类似GPT-4O的7B参数的视觉大模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似,凭借原生多模态架构,能够实现实用且有价值的图像生成,输出精确、准确且逼真的图像。模型支持(可用于图等咨询和问答)、等。•:BAGEL 是统一的生成与理解模型,基于大型语言模型预训练,具备推理与对话基础能力。可处理图像和文本输入,并以混合格式输出结果。例如拍照内容咨询,数学计算等推理。•。

2025-05-27 11:51:50 730

原创 程序员如何转行到ai大模型领域

认识个朋友,说要学AI,于是他花了半个月时间研究AI硬件配置,又四处蹲守二手,前后花了俩月时间,硬件才到手。而我,有一天准备业余玩玩AI开发,就在6g老显卡的笔记本上学习入门,第一天就跑了demo,第二天就进入生产实践了,随便找了个需求,用ai写代码、调优……入门以后,又网上找两台云主机来跑,tensorflow+open CV、pytorch+ai agent……sd、deepseek……好几方向都跑了一圈,基本上已经能进入生产状态了。于是俩月以后,朋友抱着他的新机器装了个黑神话悟空。

2025-05-24 10:49:24 589

原创 Claude 4 发布:实测代码更强,同时 Cue 了 Manus

这两款模型同时支持扩展推理(extended thinking)、工具调用、文件读取、并行任务等 Agent 工作流所需核心能力。,时长00:06实测:能完成较为复杂任务在 WebApp 上,,每百万 token:Opus 输入 $15,输出 $75Sonnet 输入 $3,输出 $15。

2025-05-23 11:35:01 724

原创 地表最强编程 AI 诞生!Claude 4 连续自动编程 7 小时,实测细节惊艳程序员

就这几天,AI 圈像是过年了。就在刚刚,Anthropic 正式发布 Claude 4 系列模型:Claude Opus 4 和 Claude Sonnet 4。没喊口号,没搞长篇论文,这次 Claude 升级的关键词只有一个:干活。据 Anthropic 宣称,Opus 4 是目前全球最强的编程模型,能够稳定胜任复杂且持续时间长的任务和 Agent 工作流。而 Sonnet 4 则着重强化了编程和推理能力,能更精准地响应用户的指令。

2025-05-23 11:28:08 1029

原创 迁移学习+多模态融合:顶会发文新范式,SOTA性能引爆学术圈!

当前,多模态学习已成为人工智能领域的重要研究方向,相关研究成果在NeurIPS、ICML等顶级会议上持续涌现。针对希望开展创新研究的研究者,本文推荐一个具有潜力的技术路径:将迁移学习范式与多模态特征融合相结合。这种结合可以轻松搞定提高性能这一核心问题,通过将源领域学习到的多模态知识迁移到目标领域,就可以快速适应目标领域的任务需求。不仅如此,这种在不同模态之间实现更有效知识传递和信息融合的能力,也能提高模型在新任务上的准确率。

2025-05-16 14:49:40 721

原创 OpenAI诈骗?GPT-4.1正式上线ChatGPT,网友实测却大呼失望

就在刚刚,OpenAI官宣:GPT-4.1,今天起直接在ChatGPT中可用。这个模型擅长编码任务和遵循指令,是o3和o4-mini的绝佳替代品。一个月前,GPT-4.1刚推出的时候,仅通过API向开发者开放。而现在,它在ChatGPT中就直接可用了。其中,Plus、Pro和Team用户可以通过模型选择器中的「更多模型」下拉菜单访问GPT-4.1。企业版和教育版用户将在未来几周内获得访问权限。

2025-05-16 11:35:36 612

原创 [医学顶刊JAMA]DeepSeek在中国医院系统中的“低成本”部署应用是否过快过急?- 清华大学医学部&上交等

这篇论文强调了DeepSeek在中国医院系统中的快速应用所带来的临床安全、数据安全和患者隐私问题。作者呼吁在全球范围内进行AI开发者、医生、医疗管理者和政策制定者之间的协作努力,以确保新的AI技术能够在医疗环境中被可靠和安全地使用。只有通过平衡的方法,结合严格的临床安全和监管监督,新的AI模型才能真正实现其变革医疗的潜力。结尾附录有截止5月份,DeepSeek在医院私有部署的版本及应用场景等全景信息。

2025-05-15 11:20:53 1038

原创 基于LLM的金融投资策略能否长期跑赢市场?

大语言模型(LLMs)在资产定价和股票交易中应用,但评估多在狭窄时间框架和有限股票范围内,可能夸大效果。本文提出FINSABER框架,评估更长时间和更大股票范围的时机策略。系统回测显示,LLM策略在更广泛的交叉验证和长期评估中效果显著下降。市场状态分析表明,LLM策略在牛市中过于保守,表现不及被动基准;在熊市中过于激进,导致重大损失。需开发能够优先考虑趋势检测和市场状态风险控制的LLM策略,而非单纯增加复杂性。

2025-05-15 11:18:04 818

原创 从零开始,亲手开发你的第一个AI大模型!(三)Agent实战

本系列文章分为三篇,前两篇为基础知识,将分别介绍什么是ADK,Agent,MCP。本篇为具体实现。在我上一篇文章中,我们探讨了如何通过 Model Context Protocol(MCP)将 Gemini 大模型集成为 MCP 客户端,从而实现结构化、具备工具调用能力的智能交互,同时也介绍了 MCP 的核心理念、典型应用场景,并展示了相关演示。

2025-05-14 10:54:51 902

原创 从零开始,亲手开发你的第一个AI大模型!(二)MCP实战

本文以“自然语言航班搜索”为例,手把手带你实践:如何通过 Gemini 理解用户语言;如何用 MCP 暴露结构化工具;如何打通 LLM + 实时数据的通路;结合 Gemini 2.5 Pro 实验版 + MCP,我们构建了一个可以自主理解、动态决策、自动调用工具并返回结构化结果的智能系统 —— 无需硬编码任何逻辑。📦 GitHub 项目地址 完整代码已发布至: 👉 arjunprabhulal/mcp-gemini-search。

2025-05-14 10:49:57 1897

原创 高德 MCP 规划去丈母娘家拜访路线

丈母娘家拜访路线,使用高德地图规划路线,同时需要提前规划好,在经过途中购买礼物,可以实现一键生成专属地图,将攻略中的点位、描述、行程规划等个性化信息自动导入到高德地图APP,生成一张独属于用户的私有地图,实际出行中可实现由攻略到一键导航、打车、 订票的丝滑体验。

2025-05-13 08:00:00 611

原创 TCMChat:一种用于传统中医药的生成式AI大模型 - 浙大&天津中医药大学等

在医学领域,结合突破性的大型语言模型(LLMs)和对话系统的应用逐渐普及。尽管最近提出了几种中医药大型语言模型,但它们在中医药领域的专业知识仍然有限。本文介绍了TCMChat中药知识聊天机器人(),一种通过预训练(PT)和监督微调(SFT)在大规模精选的中医学文本知识和中文问答(QA)数据集上进行训练的生成式大型语言模型。具体来说,我们首先通过文本挖掘和人工验证,汇编了一个包含六种中医场景的自定义训练集,涉及中医药知识库、选择题、阅读理解、实体提取、医案诊断以及草药或方剂推荐。

2025-05-13 07:00:00 643

原创 Agent的下半场?Agent互联网基础设施ACP协议的愿景及设计思路

使企业和开发者可以用最低成本开发出可用于生产级部署的Agent应用。一句话说来就是,

2025-05-12 09:45:00 1636

原创 论文浅尝 | 基于关系感知锚点增强的知识图谱补全(AAAI2025)

笔记整理:袁端阳,国防科技大学博士生,研究方向为知识图谱论文链接:https://arxiv.org/pdf/2504.06129发表会议:AAAI 2025*1. 动机**利用预训练语言模型(PLM)增强具有详细文本描述的原始三元组的内在语义联系。该分支中的典型方法分别将输入查询(与实体和关系相关联的文本描述)及其候选实体映射到特征向量,然后最大化有效三元组的概率。随着大型语言模型的快速发展,这些方法越来越受到人们的关注。

2025-05-12 07:45:00 821

原创 一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操

RAG(Retrieval Augmented Generation, 检索增强生成)是一种技术框架,其核心在于当 LLM 面对解答问题或创作文本任务时,首先会在大规模文档库中搜索并筛选出与任务紧密相关的素材,继而依据这些素材精准指导后续的回答生成或文本构造过程,旨在通过此种方式提升模型输出的准确性和可靠性。RAG 技术架构图介绍:富文本 主要存储于 txt 文件中,因为排版比较整洁,所以获取方式比较简单【版面分析——富文本txt读取】

2025-05-10 10:30:00 898

原创 LangChain4j比SpringAI强在哪?一文读懂

LangChain4j 和 Spring AI 是 Java 生态中实现大模型应用开发的两个最重要的框架,但二者的区别是啥?生产级别又该使用哪种框架?令很多人犯了难,所以本文就来浅聊一下,希望给大家在技术选型时有一个简单的参考。LangChain4j 和 Spring AI 的功能是比较类似的,甚至两者可以配合使用,例如使用 Spring AI 实现 MCP 服务器端,再使用 LangChain4j 实现 MCP 客户端调用 Spring AI,二者可以无缝对接。那二者的区别是啥呢?总体来说,

2025-05-10 08:00:00 1704

原创 那么多接入DeepSeek的,终于有一家与众不同了!

这篇文章提到的方法只是涉及到标题生成和图片生成,实际上扣子平台的智能体覆盖的范围非常广泛,它可以写作文案、生成故事、执行代码、语音播报… 还可以联网查询天气、股市、时事新闻、汇率… 你不需要有任何编程基础,就可以轻松创建一个符合自己需要的智能体。如今扣子又独家支持 Deepseek Functiocall 能力,相当于让DeepSeek可以调用海量的插件,极大地拓展了智能体的能力边界,现在能限制你的,只有你的想象力了。

2025-05-09 11:26:17 915

原创 多模态数据融合方法介绍

医疗保健领域的机器学习方法传统上专注于使用单一模态数据,这限制了它们有效复制整合多种信息源以改进决策的临床实践的能力。临床医生通常依赖各种数据源,包括患者的人口统计信息、实验室数据、生命体征和各种影像数据模态,来做出明智的决策并将他们的发现与实际情况联系起来。机器学习的最新进展促进了多模态数据的更高效整合,从而产生了能够更好地代表临床医生诊疗方法的应用程序。

2025-05-09 11:04:50 1057

原创 本地部署大模型实现扫描版PDF文件OCR 识别,笔记本可跑

在使用大模型处理书籍 PDF 时,有时你会遇到扫描版 PDF,也就是说每一页其实是图像形式。这时,大模型需要先从图片中提取文本,而这就需要借助 OCR(光学字符识别)技术。像 Gemini 2.5 这样的强大模型,具备非常强的从图片中提取文本的能力。实际上,我们完全可以利用它来执行 OCR 任务。利用这样的大模型进行 OCR,不仅能处理复杂的图像场景,还能理解文本的结构,保留格式,并正确处理表格、标题等内容,为后续的文本分析、自动化处理和智能搜索提供强大的支持。

2025-05-08 11:16:31 677

原创 一文搞懂RAG构建知识库和知识图谱

RAG结合了信息检索与生成模型,通过以下三阶段工作:****检索:从外部知识库(如文档、数据库)中搜索与问题相关的信息。****生成:基于检索内容和模型自身知识,生成连贯、准确的回答。: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。***,通过高效检索为生成提供上下文支持,从而提升答案的准确性和时效性。

2025-05-08 11:13:02 813

原创 医疗大模型微调避坑指南:领域适配、长文本处理与模型压缩的20个核心问题

首先整个项目的灵感来源于一档播客(十字路口)中分享的2024年最让人惊艳的十大AI落地项目的其中一个。其项目介绍如下:“某全国万店连锁药房,推出驻店销售APP。该APP可以将到店客户的对于病情的描述进行录音,并转化为文字输入大模型。大模型输出对应药品的介绍以及推销文案,辅助销售人员将利润高的药品推销成功。与传统的AI辅助应用不同,此款App专门设计用于推荐那些利润较高的药品,同时确保推荐过程自然流畅,避免让顾客感到被推销的压力。

2025-05-08 11:10:02 686

原创 微调一个知乎风格大模型,有点上头~

大模型的微调其实并没有想象中的困难,仅仅采用 transformers 一个库(本人没用 trl)稍微对训练数据做点处理就已经足够了,关键的问题在于数据的质量和数量。如果一个数据集人眼看上去都不是特别容易学习的,那么大模型同样会学习困难。采用 LoRA 的话,尽量将 rank 设置大一些,因为总的来说参数量越多效果越好(深度学习并不是参数量越多越容易过拟合,而是相反)。

2025-05-06 11:21:35 1625

原创 PaRT:通过大模型实现Chatbot个性化实时推荐和用户依从性 - 小红书&中科大、浙大等

社交聊天机器人在日常场景中已成为重要的智能伴侣,从情感支持到个人互动。然而,传统的聊天机器人通常采用被动响应机制,依赖用户通过提出新话题来发起或维持对话,导致参与度降低和对话时长缩短。本文提出了PaRT框架,通过个性化实时检索和生成,使社交聊天机器人能够进行上下文感知的主动对话。具体来说,PaRT首先将用户资料和对话上下文整合进大型语言模型(LLM),该模型最初被提示用于完善用户查询并识别其对接下来对话的潜在意图。

2025-05-06 11:17:24 672

原创 最新「大模型简史」:从Transformer(2017)到DeepSeek-R1(2025)

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-05-05 12:00:56 1095

原创 AI大模型 | 四大国产大模型 “神仙打架”,谁才是你的 “梦中情模”?

AI 浪潮来袭国产大模型强势崛起哪个大模型能数学难题?哪个能助力轻松搞定 PPT 和论文?哪个又能在大显身手优化供应链、提升直播效果?这些大模型的以及有何不同?别着急,今天就带你深入探秘这四大国产大模型,解开你的疑惑,找到最适合你的那一款!DeepSeek一出现,就凭借超高性价比火爆全球。谈及,大家都知道,在其中起着关键作用,通常情况下,。但过往单纯依靠 “暴力堆参数” 的模式,就像给一辆车一味增加负重,不仅越来越吃力,而且效果越来越差,。

2025-05-05 11:55:06 947

原创 通义千问Qwen3,开源!

刚刚,Qwen3正式发布并全部开源8款「混合推理模型」。此次开源包括:Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参),以及Qwen3-30B-A3B(300亿总参数、30亿激活参数);以及:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。在代码、数学、通用能力等基准测试中,与一众顶级模型相比,表现出极具竞争力的结果。

2025-04-30 17:05:47 956

原创 千问Qwen3横空出世:8大模型,2350亿参数,阿里版OpenAI来了!

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜由于上一年之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样那时候中国网友就为了这个调休到底最后休了多少天而计算起来。

2025-04-30 16:37:53 719

原创 Deepseek本地部署最强指南(喂饭教程)!!

本文主要写两种部署方式,分别针对不同的人群,如果你是电脑小白,但是还想要个随时可以调用,不被“服务器繁忙”烦扰的话,可以看本文的方法1,直接一键部署。如果你是电脑高手,很了解电脑的相关知识,可以看方法2。

2025-04-28 11:38:40 1117

原创 基于Google ADK, Gemma 3, and MCP Tools构建AI智能体

引言本文将介绍如何利用谷歌的Agent Development Kit(ADK)框架,结合本地化运行的大语言模型(如通过Ollama部署的Gemma3或Llama3.2),通过Model Context Protocol(MCP)协议调用外部工具实现实时搜索功能。我们将基于ADK框架开发一个YouTube视频搜索智能体。该智能体将使用Gemma 3模型进行推理与响应生成,并通过MCP协议动态调用工具获取实时搜索结果。Gemma 3 是谷歌最新推出的开源大语言模型(LLM),具备高性能、高效率及多模态处理能

2025-04-28 11:30:53 846

原创 Sitcom-Crafter:北航联合港中文等高校打造的剧情驱动3D动作生成系统

Sitcom-Crafter 由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等多所知名高校的科研团队联合开发。这些团队在计算机图形学、人工智能和动画技术等领域拥有丰富的研究经验和深厚的技术积累,为项目的成功实施提供了坚实的保障。Sitcom-Crafter的主要目标是开发一个综合性的3D人类动作生成系统,能够基于用户提供的长剧情指导,生成多样化且物理真实的动作。该系统不仅支持人类行走、场景交互和人与人之间的交互,还通过增强模块优化动作的流畅性、自然性和同步性。

2025-04-27 11:38:41 1067

原创 AI大模型ms-swift框架实战保姆级教程:框架基础篇之全景概览

swift框架,全称为Scalable lightWeight Infrastructure for Fine - Tuning,由魔搭社区精心打造。魔搭社区在人工智能领域积累深厚,开发swift框架旨在解决传统大模型开发中的效率和资源管理难题。其研发团队汇聚了人工智能领域的专家,经过大量调研、实验和优化,推出了这款集高效、灵活、轻量于一体的综合性工具集,整合了大模型开发从数据处理到部署的全流程功能。在本篇章中,我们全面认识了swift框架。

2025-04-27 11:35:30 783

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除