自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

老皮的博客

一位在移动开发领域苦苦前行者

  • 博客(925)
  • 收藏
  • 关注

原创 从零开始理解大语言模型(LLM)原理(五)分词的艺术

从结绳记事到甲骨刻字,人类一直在寻找记录语言的最佳方式。子词分词器延续了这个古老智慧,用数字时代的密码本重新诠释语言本质。

2025-02-15 12:05:24 341

原创 从零开始理解大语言模型(LLM)原理(四)为什么需要嵌入?

例如,“humpty dumpt” 和下一次迭代中的 “umpty dumpty”,在这两种情况下,我们都要向网络中输入 12 个字符,如果这 12 个字符不是都由长度为 10 的向量表示,我们就无法可靠地将它们全部输入到 120 个长度的输入层中。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。就像前面的“叶子 / 花朵”的数据,如果交换叶子的 R 和 G 值,就会得到不同的颜色,也就不再是同一个向量。

2025-02-15 11:50:18 374

原创 从零开始理解大语言模型(LLM)原理(三)神经网络如何生成语言?

借助基本的中学数学知识,我们已经了解到什么是神经网络模型,以及一个神经网络模型大致是如何被训练的。这个训练好的神经网络可以被用于预测一组数据代表的是“叶子”还是“花”,如果你愿意,它甚至可以被训练用来预测“未来一小时的天气”,只要有正确的权重设置:但我们需要研究的是语言模型(LLM),而不是一个预测模型。那么问题来了:这个可以预测“叶子”与“花”的神经网络模型如何用来生成自然语言呢?方法很简单。上图已经展示了神经网络的本质:输入一些数字,经过模型内部的数学计算(基于训练好的参数,主要是权重,即各层之间连线上

2025-02-15 11:45:24 443

原创 从零开始理解大语言模型(LLM)原理(二)神经网络如何被训练?

在上一篇的简单神经网络中,为了让这个魔力“盒子”能够接收我们输入的数值(代表颜色的RGB值与体积Vol值),并输出期望的信息(叶子还是花的概率),我们假设已经“神奇的”得到了能够生成合理输出的模型权重(神经元连线上的数字,也被称为模型的。梯度是在每次权重更新后,根据最后输出结果的损失值,沿着神经网络方向“逆流而上”,根据特定的算法分析每一层对损失的影响,得到每个权重的梯度值。其实,这些权重是通过一个叫做“训练”的过程来确定的,而这个过程需要使用一些“训练数据”,也就是“投喂”给模型用来学习的知识。

2025-02-15 11:36:21 800

原创 从零开始理解大语言模型(LLM)原理(一)神经网络

有趣的是,我们可以用同一个神经网络处理完全不同的任务。比如,输入云量、湿度等 4 个数字,输出“晴天”或“雨天”的概率。如果权重校准得当,那么这个神经网络就可以同时完成叶子/花朵分类和天气预测的任务!神经网络只会输出两个数字,至于如何解释这些数字,完全由我们决定。

2025-02-15 10:52:35 548

原创 Agentic Reasoning:牛津大学新推理框架用工具链突破思维边界

大语言模型(LLM)的推理能力一直存在"思维天花板"。LLM就像一个只会闭卷考试的学生,只能依赖预训练时记住的知识进行内部推演。当遇到需要实时数据验证、复杂计算或跨领域知识整合的问题时,这种单一推理模式就会暴露出三大致命缺陷:信息孤岛困境:模型无法主动获取最新信息,面对时效性强的提问(如"2024 年诺贝尔化学奖得主的研究突破")时,只能给出过时答案逻辑断层危机:在处理多步骤推理时,模型常常丢失中间结论的关联性。就像解数学题时忘记前面步骤的推导结果,导致最终结论偏差工具使用障碍:人类专家在解决问题时会自然调

2025-02-14 14:27:14 519

原创 使用混合 LORA 专家定制多模态语义分割的 SAM 模型 !

近期的Segment Anything Model (SAM) 在扩展分割模型方面取得了显著突破,在RGB模态的各种下游应用中表现出了强大的性能。然而,直接将SAM应用于新兴的视觉模态,如深度和事件数据,在多模态分割任务中会导致性能不佳。在本文中,作者首次尝试通过提出一种针对不同输入视觉模态的Mixture of Low-Rank Adaptation Experts (MoE-LoRA) 来适应SAM进行多模态语义分割。

2025-02-14 13:54:40 479

原创 从RPA到AI Agent(三):案例:银行流水分析工具的三种实现

有许多框架能让 Agent 系统更易于实现,包括LangChain的LangGraph、亚马逊云科技的Amazon Bedrock等,这些框架简化了调用LLM、定义和解析工具以及串联调用等标准底层任务,让起步变得容易。但框架本身也会增加额外的抽象层,可能会掩盖底层的提示和响应,加大调试难度。更需要注意的是,在简单设置就能满足需求的情况下,它们也容易诱使新手开发增加复杂性,舍本逐末的追求大而全(血泪史)。MVP的开发阶段,建议还是直接调用LLM的API,很多模式也只需几行代码就能实现。

2025-02-14 13:43:33 642

原创 从RPA到AI Agent(二):5 种Agent模式梳理

Agent的底座是通过检索、工具和记忆等功能增强的LLM,大模型通过推理能力来主动运用这些功能,比如通过介入搜索API来生成搜索查询,选择合适的工具以及决定保留哪些信息作为记忆后续使用。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

2025-02-14 13:09:04 325

原创 从RPA到AI Agent(一):RPA、Workflow、Agent 的区别

24年年末Anthropic公司发布那篇Building effective agents的Blog,无疑是 AI Agent的入门必读文章之一。其中反复强调了,最成功的应用案例并非依赖复杂的框架或专业的库,而是采用了简单且可组合的模式,个人实践下来,深以为然。本篇结合个人近期的相关项目或者比赛经验,为大家就其中的五种agent模式应用实践做下分享,正文特意避免了过多技术细节,专注于核心概念和实际案例,可放心食用。

2025-02-14 12:49:54 447

原创 揭秘!如何微调 DeepSeek-R1 推理模型,提升 AI 性能到极致

正在颠覆 AI 领域!通过推出一系列先进的推理模型,它挑战了长期占据的主导地位。最令人兴奋的是,这些革命性的模型完全免费使用,没有任何限制,任何人都可以随时访问并利用它们。是不是听起来像是科幻小说中的情节?但它已然成为现实!在本教程中,我们将带你深入探讨如何在上微调模型。这个经过精心提炼的模型,是通过对生成的数据微调模型创建的,展示了与原始模型相似的卓越推理能力。这不仅是一次技术突破,也是你进一步掌握 AI 推理能力的最佳时机!中国 AI 公司正式开源了其第一代推理模型和。

2025-02-13 14:01:12 1009

原创 DeepSeek背后的技术基石:MoE、数据并行与模型并行全解析

MoE架构代表了深度学习模型发展的一个重要方向,它通过稀疏化和专家机制,不仅提升了大模型的训练效率,还为多任务、多模态处理开辟了新的可能性。尽管在实际应用中存在一定的挑战,但随着技术的不断进步,MoE将成为未来大规模模型训练和推理的核心架构之一。

2025-02-13 13:26:21 650

原创 OpenAI最新突破:AI在编程竞赛中达到99.8%,且完全实现自主推理!

编程竞赛一直被视为评估AI系统推理能力的终极挑战。从早期的Codex到AlphaCode2,AI在这个领域的进步始终依赖于人工设计的推理策略和大规模采样(高达100万个候选解决方案)。然而,OpenAI的最新研究完全颠覆了这一范式——他们的新一代模型o3不仅达到了惊人的成绩,更重要的是,它完全依靠自主学习获得了这种能力。

2025-02-13 12:54:10 791

原创 一文搞懂DeepSeek - 李飞飞26分钟“蒸馏”S1?

该技术使S1能够通过模仿学习其他模型的答案,提炼出强大的推理能力。为了进一步提升S1的智能水平,团队精心设计了1000个问题及答案,并收集了谷歌Gemini Thinking Experimental在回答问题时的思考过程生成数据集。S1对现成的预训练模型(Qwen2.5)在该小型数据集上(1k)进行了监督微调(SFT),在16个H100 GPU上仅需26分钟的训练时间,成本仅为约20美元。

2025-02-12 11:58:22 723

原创 支持DeepSeek的于二次开发的大模型应用项目

一个轻量级、支持全链路且易于二次开发的大模型应用项目 支持DeepSeek/Qwen2等大模模型源代码:http://www.gitpp.com/deepseeks/deepseek-web基于DeepSeek,快速开发应用,快速获得用户,收割这一波流量,已经有老外基于DeepSeek获得大量用户,中国程序员应该动起来,持续完善deepseek生态这个项目 是,结合了多种先进技术来构建一个功能强大、用户友好的应用。

2025-02-12 11:32:41 693

原创 从AI Agent到Agentic Workflow:技术焦点的转变与未来发展

企业必须将焦点从专注于某些特定工具或趋势——例如曾经自称为 RAG 公司、Prompt Engineering 实验场等,转移到解决现实世界的商业挑战上。世界正以前所未有的速度向前发展,几乎每天都有新技术涌现,每一项都承诺能够颠覆各个行业。然而,

2025-02-12 11:15:56 999

原创 DeepSeek 爆火的当下:2025,人人都是顶尖AI 产品经理实操指南

在产品经理学习使用AI的道路上,试错和成长是必经之路。每一位成功驾驭AI工具的产品经理,都经历过不断尝试和持续改进的过程。有些尝试可能不尽如人意,但正是这些经历帮助他们形成了自己独特的工作方法。对于刚开始在工作中应用AI的产品经理来说,不必因为初期的不完美而气馁。可以先从一些基础场景开始尝试,比如文档撰写、会议记录或竞品分析等日常工作。在实践中逐步建立对AI工具的认知,找到最适合自己的使用方式。作为产品经理,我们要对自己抱有信心。随着不断练习和积累经验,你一定能够熟练运用AI工具来提升工作效率。

2025-02-11 11:46:28 683

原创 DeepSeek-R1-Zero自我进化的3大特点和3大基石

近期,DeepSeek-R1-Zero以其独特的自我进化过程,为AI推理领域带来了全新的启示。今天,就让我们一起深入探索DeepSeek-R1-Zero的自我进化奥秘,用通俗易懂的语言揭开其背后的专业面纱。当前 AI 在推理能力提升上遇到了诸多瓶颈,这在一定程度上限制了其进一步发展和广泛应用。在传统的 AI 训练中,模型对大量监督数据的依赖是一个显著问题。监督学习需要大量带有标注的数据来训练模型,使其能够对新的数据进行准确的分类或预测。然而,获取高质量的标注数据往往需要耗费大量的人力、物力和时间。

2025-02-11 11:20:27 806

原创 【深度学习】自注意力机制&多头自注意力机制:技术背景、原理分析及基于Pytorch的代码实现

的提出源于谷歌的Vaswani 等人于2017年发表的著名论文 《Attention Is All You Need》,作为Transformer架构的核心技术,其被广泛应用于自然语言处理(NLP)和计算机视觉(CV)等领域,为后来的如BERT、GPT等许多先进的模型奠定了基础。本文将从方面详细介绍自注意力机制和多头自注意力机制。在自然语言处理任务中,自注意力机制和多头自注意力机制提出之前的循环神经网络(RNN)和长短期记忆网络(LSTM)虽然也能够处理序列数据,但它们的计算存在。

2025-02-11 11:03:35 607

原创 大模型论文 | Agent-R:通过迭代自训练训练语言模型智能体进行反思

今天给大家带来最新的大模型论文,

2025-02-11 10:33:09 560

原创 一篇教你如何构建有效的Agent

Agent这个术语一开始算是在强化学习领域出现的,它表示的是可以和外界环境交互的智能体,能够根据外界的反馈去改变自己的规划。在大模型出现之后,Agent有了更多的定义,简单来说就是可以在长时间独立运行,使用各种工具完成复杂任务的系统都可以称为智能体。在Anthropic的文章中,他们对Agent和Workflow做了更详细的区分。简单来说,Workflow就是一个固定的执行路径,而Agent是由LLM动态的规划自己的执行流程和工具使用。

2025-02-11 10:18:21 557

原创 注意力机制到底是一种什么样的机制?

在深度学习中,Transformer架构被广泛使用,而它所基于的注意力机制是最核心的部分,今天我们来讲一讲注意力机制到底是一种什么样的机制。

2025-02-10 12:03:42 885

原创 DeepSeek引爆AI界:性能、开源、成本三大利器震撼登场

虽然有人说DeepSeek摆脱了对GPU的依赖,导致英伟达的股价下跌,但这一说法并不准确。实际上,DeepSeek确实在一定程度上降低了对算力的依赖,但并非完全摆脱。从参数上看,R1总共有6710亿个参数,一次推理调用的参数只有370亿个,远低于GPT-4的1.76万亿个参数。而DeepSeek背后的投入也是巨大的,包括购买计算卡、搭建服务器等费用在内,总费用高达26亿美元。但即便如此,DeepSeek R1的训练成本仍然只有600万美元,远低于同类模型的训练费用。

2025-02-10 11:34:22 602

原创 Deepseek-R1登上热榜,RL前添加SFT效果更佳!

我们推出了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。通过大规模强化学习(RL)训练且未经监督微调(SFT)的 DeepSeek-R1-Zero 模型,初步展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然展现出众多强大且有趣的推理行为。然而,它面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了 DeepSeek-R1,该模型在强化学习之前融入了多阶段训练和冷启动数据。

2025-02-10 10:57:47 481

原创 RegionCLIP:基于区域的语言-图像预训练

我们的目标是学习一个涵盖丰富物体概念的区域视觉语义空间,以便将其用于开放词汇物体检测。考虑一段文本描述t,它描述了图像I中区域r的内容。在视觉语义空间中,从r提取的视觉区域表示𝒱(I,r)应该与文本表示ℒ(t)匹配。𝒱是一个视觉编码器,它接收图像I和区域位置r,并输出该区域的视觉表示。ℒ是一个语言编码器,它将自然语言文本转换为语义表示。识别和定位的解耦。图像区域理解有两个关键组成部分:定位和识别。

2025-02-10 10:36:32 966

原创 4篇DeepSeek官方论文梳理: DeepSeekMoE、MLA、MTP、RL、Distillation

这篇按顺序梳理从DeepseekMoE到Deepseek V2,Deepseek V3和Deepseek R1的4篇论文,DeepSeek这几篇论文的含金量堪比OpenAI GPT系列论文了Deepseek的模型都是MoE架构的, 因此开始具体论文分析之前,先了解一下MoE架构(Sparse model稀疏型模型)和传统的Transformer架构(Dense model密集型模型 )区别:MoE 模型的核心思想是在模型内部设计多个“专家”(sub-networks),通过一个门控机制(gating net

2025-02-09 09:15:00 1081

原创 AutoGen:让DeepSeek和Qwen2.5自行聊天完成任务

AutoGen 是一个开源编程框架,用于构建 AI 代理并促进多个代理之间的合作以解决问题。AutoGen 旨在提供一个易于使用和灵活的框架,以加速代理型 AI 的开发和研究,就像 PyTorch 之于深度学习。它提供了诸如代理之间可以对话、LLM 和工具使用支持、自主和人机协作工作流以及多代理对话模式等功能。AutoGen使得基于多智能体对话构建下一代LLM应用程序变得非常容易。它简化了复杂LLM工作流的编排、自动化和优化。它最大化了LLM模型的性能并克服了它们的弱点。它支持复杂工作流的各种对话模式。

2025-02-08 18:04:34 648

原创 RAG四种进阶方式

比如在IT运维领域,以往处理众多事件时,每个事件的解决办法可能并没有一个清晰固定的文档说明背后的依据是什么,但是存在着一些隐性的、大家默认有效的策略和决策逻辑,软件开发中的调试过程也是类似情况,调试决策的详细理由可能没记录,但有潜在的原则在里面。

2025-02-08 17:23:29 698

原创 手把手教你在本地部署DeepSeek R1,并集成到Dify中,建议收藏

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。需要注意的是,DeepSeek R1是一个推理模型,不支持函数调用,也就是说无法集成在DIfy的智能体中,但是DeepSeek V3可以。当然,只是通过命令和大模型进行对话还是不太方便了点,那么接下来,介绍一下如何将其集成到Dify中,通过可视化的方式进行调用。书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,

2025-02-08 16:55:36 970

原创 一文读懂!DeepSeek-R1 大模型本地部署超详细攻略

在快速发展的人工智能领域,2025 年 1 月,DeepSeek正式推出了备受瞩目的推理大模型。这款模型凭借其低廉的成本和卓越的性能,一经发布便迅速在 AI 行业掀起波澜,吸引了众多研究者、开发者以及企业的广泛关注。之所以能够在竞争激烈的 AI 市场中脱颖而出,其性价比优势功不可没。相较于其他同类型的大模型,它在保证出色性能的同时,大大降低了使用成本,这使得更多的个人开发者、科研团队以及预算有限的企业能够轻松应用,为推动 AI 技术的普及和发展提供了新的契机。DeepSeek。

2025-02-07 14:42:40 1115

原创 5000字!深度解析DeepSeek 系列模型进化史

在短短一年多的时间里,DeepSeek系列模型从最初的开源探索到如今的性能飞跃,经历了多个关键阶段的创新与突破。从DeepSeek LLM的基础架构优化,到DeepSeek V3的混合专家架构革新,再到DeepSeek R1的强化学习训练,每一代模型都在架构设计、训练算法和推理效率上实现了质的飞跃。今天,我们将深入剖析DeepSeek系列模型的发展历程,探索其背后的创新技术,以及这些技术如何推动开源大语言模型走向新的高度。

2025-02-07 11:43:15 1604

原创 颠覆职场效率!DeepSeek:你的AI全能助手,3步解决90%工作难题

在2025年的今天,人工智能技术的迅猛发展正在深刻改变我们的工作方式。根据《2025 AI工具全景图》显示,AI助手的普及率已达到70%,其中DeepSeek作为国内领先的AI工具,凭借其强大的自然语言处理能力和场景化解决方案,迅速成为职场人士的“得力助手”。与此同时,越来越多的职场人开始意识到,传统的工作模式已无法满足现代职场的需求,尤其是在996工作制和内卷文化的背景下,如何高效完成任务、提升生产力成为了一个亟待解决的问题。

2025-02-07 11:23:38 1052

原创 DeepSeek新手必看!全功能详解与实操指南

对于有特定需求的用户,DeepSeek还支持上传文件建立自定义知识库。将与自己工作、学习相关的文档、资料上传后,DeepSeek就能基于这些知识为你提供更个性化、针对性更强的回答和建议。例如,企业用户可以上传公司的内部规章制度、业务资料等,让DeepSeek成为企业内部的智能助手;学生可以上传自己的学习笔记、专业文献等,帮助自己更好地学习和复习。

2025-02-05 18:05:20 5899

原创 狠狠收藏!关于Deepseek,看这一篇就足够了!

最近,AI界黑马DeepSeek爆火。AI圈、科技博主、职场人,甚至连朋友圈的宝妈群都在聊——“DeepSeek太强了!”“国产GPT之光!”“中文能力碾压!但Deepseek这个名词对部分人来说还比较陌生,怎么高效使用也是一个未知数,今天,就让我们一起走进DeepSeek的世界,看看它到底有多厉害!顺便再给你个DeepSeek万能使用模板,让你彻底摆脱提示词焦虑,让AI真正成为你的“最强大脑”!

2025-02-05 16:58:15 1211

原创 完整攻略:如何用好DeepSeek,一文汇总!

本文从DeepSeek的独特优势出发,全面分享了DeepSeek的使用方法,包括:扔掉提示词模板的正确方式、让其 “说人话” 的方法、深度思考技能、强大文风转换器运用,以及使用禁区。

2025-02-05 11:29:13 1627

原创 基于LLM路由的专家混合模型:一种新的交易框架,总回报上提升超过25%

传统交易方法依赖统计分析和预测模型,但难以适应金融市场的复杂性和波动性。深度学习方法在量化交易中表现出色,但通常依赖单一预测器,导致性能不稳定。本文提出LLMoE框架,结合MoE与语言模型作为路由器,动态选择专家模型,整合历史股价和新闻头条。LLMoE通过“全进全出”策略生成交易策略,提升专家选择和金融市场应用的性能。实验结果显示LLMoE在风险调整回报指标(如Sharpe Ratio和总回报)上提升超过25%。论文地址:https://arxiv.org/pdf/2501.09636。

2025-02-04 19:47:31 739

原创 基于LightGBM的资产预测,MAE相对准确性提高了42.25%

股票市场对个人和社会的财务健康有深远影响,影响消费价格、经济政策和通货膨胀。本文优化了LightGBM,旨在提高性能并降低计算需求。引入新特征工程技术,如指标-价格斜率和14期EMA的开盘与收盘价差异,增强预测准确性。测试了七种特征和目标变量转换方法,发现对数收益、收益和EMA差异比率效果最佳。论文地址:https://arxiv.org/pdf/2501.07580。

2025-02-03 09:45:00 891

原创 TensorRT-YOLO:灵活易用的 YOLO 部署工具

TensorRT-YOLO 是一款专为 NVIDIA 设备设计的的推理部署工具。项目不仅集成了 TensorRT 插件以增强后处理效果,还使用了 CUDA 核函数以及 CUDA 图来加速推理。TensorRT-YOLO 提供了 C++ 和 Python 推理的支持,旨在提供的部署体验。包括 目标检测、实例分割、图像分类、姿态识别、旋转目标检测、视频分析等任务场景,满足开发者的部署需求。

2025-02-02 10:15:00 943

原创 多模态大模型系列|Qwen2-VL微调实战(附完整代码)

Qwen2-VL 是一个基于视觉-语言预训练的多模态模型,支持图像和文本的联合输入,输出是文本形式。输入:图片+文本。输出:仅仅文本。通过以上步骤,我们成功使用 LoRA 方法对 Qwen2-VL-2B 模型进行了微调,并在 COCO 数据集上进行了评测。LoRA 方法在保持模型性能的同时,显著减少了微调参数的数量,提高了训练效率。

2025-02-01 11:00:00 1154

原创 Pathway:用于流处理、实时分析、LLM 管道和 RAG 的 Python ETL 框架

Pathway是一款基于Python的ETL框架,用于流处理、实时分析、大型语言模型(LLM)管道和检索增强生成(RAG)。它具有易于使用的Python API,可与你喜爱的Python机器学习库无缝集成。Pathway代码用途广泛且健壮,可在开发和生产环境中使用,有效处理批量和流数据。同一代码可用于本地开发、CI/CD测试、运行批量作业、处理流重播和处理数据流。Pathway由基于差分数据流的可扩展Rust引擎驱动,并执行增量计算。

2025-01-31 09:15:00 684

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除