自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(745)
  • 收藏
  • 关注

原创 KV cache压缩时如何权衡Token和Precison?北大、华为工作发现保留更多的Token远比更多的精度重要!

KV cache 技术通过缓存已经计算好的 key、value 向量(KV),大幅减少了推理的时间。然而随着大语言模型(LLM)的窗口长度增长,KV cache 的内存占用成为了推理时候的新瓶颈。很多工作开始探讨如何压缩 KV cache 的内存。压缩 KV cache 的内存不仅能减少推理时候的内存开销,还可以减少解码时候的时间消耗,因为解码步骤一般是带宽瓶颈的。现有的 KV cache 压缩工作主要包括 KV Pruning 和 KV Quantization。

2025-02-09 10:45:00 262

原创 DeepSeek系列模型个人与企业部署手册,看这一篇就行

第一个问题在资源有限的情况下,个人进行数学相关学习和教学研究,应该选择哪款模型进行部署?DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeek-R1-Distill-Qwen-7B 是专门针对数学领域优化的模型。如果资源允许,建议优先部署 DeepSeek-R1-Distill-Qwen-7B,因为它的性能更强;但如果资源有限,部署 DeepSeek-R1-Distill-Qwen-1.5B 也完全能够满足日常的学习和教学研究需求。第二个问题。

2025-02-08 20:22:06 241

原创 一文搞懂DeepSeek - 李飞飞26分钟“蒸馏”S1?

蒸馏”技术。该技术使S1能够通过模仿学习其他模型的答案,提炼出强大的推理能力。为了进一步提升S1的智能水平,团队精心设计了1000个问题及答案,并收集了谷歌Gemini Thinking Experimental在回答问题时的思考过程生成数据集。S1对现成的预训练模型(Qwen2.5)在该小型数据集上(1k)进行了监督微调(SFT),在16个H100 GPU上仅需26分钟的训练时间,?

2025-02-08 20:21:04 621

原创 MM-2024 | 智能体遇山开路,遇水架桥! ObVLN:突破障碍,受阻环境中的视觉语言导航

论文通过引入障碍物到VLN环境中,解决了指令与现实匹配问题。提出的R2R-UNO数据集和ObVLN方法有效地提高了智能体在障碍环境中的导航能力。研究表明,解决完美指令假设对于VLN在实际应用中的鲁棒性和适应性至关重要。

2025-02-07 20:29:59 689

原创 图解DeepSeek R1训练流程

来源:Deepseek R1 论文解读-chance10010DeepSeek-R1:通过强化学习提升大型语言模型的推理能力论文题目:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》

2025-02-07 20:28:53 523

原创 OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

刚刚,OpenAI把o3-mini的推理思维链公开了。从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。用户的提问是“为什么今天不少星期五o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。最后回答的中,调侃了是日历规定今天是星期四,并安慰用户“忍耐一下,明天就离周未更近了!

2025-02-07 20:27:34 881

原创 实测 | 比较Qwen2.5-VL与Janus-Pro-7B在视觉理解上效果

因为昨天Qwen和DeepSeek都开源的多模态模型,Qwen开源的是Qwen2.5-VL模型专注多模态(图像+视频)理解,而DeepSeek开源的是Janus-Pro模型即可以进行图像理解,也可以进行图片生成。知乎热榜,Janus-Pro也是挂了一天,但我测了一下图像理解能力,真的不太行,我希望请大家不要无脑吹。声明:我没有贬低Janus-Pro-7B的意思,也没有测试Janus-Pro-7B的图像生成能力,仅从图像理解来进行评价。

2025-02-06 20:21:17 842

原创 Transformer结合特征融合依旧可以卷!来跟着斯坦福学习怎么创新!

Transformer现在还能怎么做创新?不妨考虑结合特征融合。这种思路意在利用Transformer的自注意力机制和特征融合技术的优势,以。比如斯坦福最近的新作Fusion-Vital,一种新颖的视频-射频(RGB-RF)融合Transformer,采用了Transformer-based fusion strategies和cross-attention机制来对齐和融合多模态特征,有效地捕捉微观生理标志,预测误差降低了83.4%。

2025-02-06 20:19:44 987

原创 一文读懂大模型显存需求:从0.5B到70B,你的显卡够用吗?

最小推荐内存基于相应精度计算,包含工作内存和系统预留 最小推荐内存(FP32)基于全量参数计算,包含工作内存和系统预留。

2025-02-06 20:18:17 975

原创 搭建个人知识库,支持Word、PDF、txt等,一般电脑也能玩

本地部署大模型,再构建个人知识库,跑自己的文档、数据等,有很多好处。比如,隐私的财务数据可以借力AI大模型做总结,股票数据实时接入到大模型做数据分析,个人word文档批量读取做总结等。错过上篇教程的,我简单再在这里和大家回顾一下。我提出的方案基于LLM大模型+文档检索方法,具有的优势:充分释放大模型能力,因为使用的是文档检索,而不是语义向量所以检索会更加高效,大大提升了回复效率;同时对电脑的性能要求直接降到最低,一般电脑也能玩起来了。你需要做的前期准备。

2025-02-05 20:07:38 677

原创 入选AAAI 2025!多模态医学图像融合新突破!

近年,空前火热,顶会成果相当多。在前段时间刚结束的AAAI 2025大会上,就有一篇引起AI4S研究者关注的课题:由国内两大高校联合提出的BSAFusion,将图像配准与融合集成于统一框架,单阶段即可完成对齐与融合,开创了医学图像融合新技术方向。如今,多模态医学图像融合搞创新更偏向,主要是因为深度学习算法过于强大,特征提取能力、泛化能力都遥遥领先,还能和其他先进技术结合,进一步提升多模态医学图像融合各方面的效果,对于医学领域来说,是更佳选择,研究前景广阔。

2025-02-05 20:04:59 745

原创 RAG从入门到精通系列5:Indexing(索引)

对每个聚类生成一个摘要。例如,对于“神经网络优化”类别,摘要可能是:“该类文档主要探讨了神经网络的超参数优化方法,包括梯度下降的改进、优化器选择和自动化调参工具。

2025-02-05 20:03:21 806

原创 o1 + RAG = search-o1,开源

一篇新文章,Search-o1: Agentic Search-Enhanced Large Reasoning Models,项目地址: https://github.com/sunnynexus/Search-o1像 o1 这些的 LRMs 在给出结果之前会进行大量的思考(推理过程),推理过程中,往往会出现大量不确定性的词,比如说 “perhaps”、“alternatively”。就是说,这个过程模型可能不自信了,所以可能就会出现错误或者不连贯了。

2025-02-04 21:29:21 787

原创 DeepSeek这一波喧嚣过后,回归于技术的冷静思考与深度求索

历经甲辰年末再到乙巳年‌初,由于DeepSeek V3/R1-zero/R1等模型的“出圈”似乎又让我们这些在AI领域不断“深度求索”的AIer小伙伴们过上了一个看似不那么平静的“年”,这种“年味儿”的感觉不亚于甚至更甚于去年甲辰年横空出世的“Sora”。然而不同的是,上次是来自国外带给我们视觉领域下的“diffusion“冲击,而这次则是国内所刮起的这股东方“求索”与“开放”精神。

2025-02-04 21:28:20 942

原创 7B?13B?65B?大模型参数量如何计算?

最近发现很多做训练和推理的朋友都在讨论大模型参数量和模型大小之间的关系。例如羊驼系列 LLaMA 大模型,按照参数量的大小有四个型号:LLaMA-7B、LLaMA-13B、LLaMA-33B 与 LLaMA-65B。这里的 B 是 billion 的缩写,指代模型的参数规模。故最小的模型 7B 包含 70 亿个参数,而最大的一款 65B 则包含 650 亿个参数。这个参数量到底是怎么算出来的?

2025-02-04 21:26:48 811

原创 一文搞懂企业架构与DDD的融合

TOGAF(The Open Group Architecture Framework)是一个广泛采用的企业架构(Enterprise Architecture, EA)框架,由开放组(The Open Group)开发和维护。它为组织设计、规划、实施和治理企业信息架构提供了系统化的方法和工具。TOGAF旨在帮助企业通过高效的架构管理,实现业务目标、优化资源利用和增强灵活性。

2025-02-04 21:25:07 820

原创 使用Ollama部署deepseek大模型

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。天道酬勤,你越努力,就会成为越优秀的自己。

2025-02-03 10:45:00 1059

原创 LangChain实战 | 实现一个检索增强生成系统(RAG)

LangChain是一个非常适合的工具框架。LangChain通过模块化设计,简化了从数据加载到问答生成的全流程操作。数据加载器(Loader):支持多种数据格式的加载(如文本、PDF等)。文本分割器(Text Splitter):将长文本分割为适合检索的短片段。嵌入与向量存储:将文本映射到高维向量空间并存储,用于快速检索。Prompt管理:灵活设计生成模型的输入提示(Prompt)。问答链(Chain):将检索和生成串联,完成从问题到答案的闭环。

2025-02-02 10:45:00 553

原创 解锁RAG: AI 2.0 时代的“杀手锏”

在人工智能快速发展的当下,RAG(检索增强生成)技术成为 AI 领域的关键突破点。本文深入剖析阿里云 AI 搜索 RAG 大模型,带你一探究竟。从 RAG 的背景、架构出发,详细分析其效果问题及归因,进而介绍阿里云的优化实践,包括文档切片改进、大模型微调与 Agent 探索。同时,通过电商、教育搜题等丰富的应用场景展示,呈现 RAG 在实际中的强大效能。无论是 AI 爱好者,还是相关从业者,都能从中获取有价值的信息,一同解锁 RAG 技术的无限潜力,探索 AI 智能的新纪元。

2025-02-01 10:45:00 626

原创 知识图谱与ai agent的演变

知识图谱(KG)的发展与人工智能(AI)代理的进步紧密相连。从它们的静态起源开始,知识图谱已经发展到包括动态、时态和事件驱动的范式,每个范式都为AI系统解锁了新的能力。本文探讨了它们的演变以及大型语言模型(LLM)如何融入这些进步。简而言之,所有知识图谱的演变都是关于时间的。静态图谱静态知识图谱是基础结构,其中实体和关系是固定不变的。例如,WordNet、Freebase和Kinship将实体表示为节点,将关系表示为不可变的三角关系(例如,主语-谓语-宾语)。

2025-01-31 10:45:00 720

原创 清华NLP开源RAG开箱即用框架,自动适配知识库无需纠结模型选型

通常需要兼顾测试制定、检索调优、模型调优等关键环节,繁琐的工作流程往往让人无从下手。,该框架革新了传统RAG系统的开发与配置方式,极大降低了学习成本和开发周期。UltraRAG 不仅具备满足专业用户需求的“单反相机”级精细化配置能力,同时也提供类似“卡片机”的一键式便捷操作,。更重要的是,相比复杂配置的Llamaindex等传统RAG框架,,有效避免在“模型选型”的反复纠结。同时,其又能为科研需求快速赋能,帮助研究者在多种场景下自由组合、快速迭代。

2025-01-30 19:57:34 1086

原创 AI 知识库的 O1 时刻!蚂蚁KAG或将取代RAG【含喂饭级教程】

KAG(Knowledge Augmented Generation)是一个基于OpenSPG引擎和大型语言模型(LLM)的推理问答框架,旨在通过结合知识图谱和向量检索的优势,提供更加严谨的决策支持和信息检索服务。KAG通过四个关键方面来增强LLM和知识图谱1.对LLM友好的知识表示;2.知识图谱与原文片段之间的互索引;3.逻辑形式引导的混合推理引擎;4.以及与语义推理的知识对齐。简单来说,KAG就是通过创新技术,更好的融合了知识图谱和向量检索诞生的一个知识库框架。

2025-01-30 19:55:59 881

原创 从零拆解一款爆火Agent智能体,4步学会设计自主决策Agent

以前我们开发的大多数智能体是固定的工作流模式,很少有按照下面的框架,开发具有和的智能体。前两天,我分享了一款可以自动使用浏览器完成简单任务的开源Agent——。上面演示的是它自动搜索 ‘渡码’,并打开了我的博客。是一款开源 Agent,在 GitHub 上有 1.5w star,一条命令就可以在本地安装使用,门槛非常低。自从上次分享完之后,我的职业病就犯了,总想拆解一下看看是怎么实现的,所以就有了今天这篇文章。

2025-01-30 19:43:35 922

原创 AI Agent不能缺少的基本能力之一:自我反思(Self-Reflecting)

反思(Reflection)在 AI Agent 场景中的作用不可忽视。它不仅提升了生成内容的质量,也增强了 AI 系统的灵活性和适应性。通过不断的反思和改进,AI 系统能够生成更符合用户需求的内容,实现更高效、更智能的任务处理。1. 反思(Reflection)是什么?2. 反思(Reflection)的核心原理3. 为什么需要反思(Reflection)5. 代码实现6. 反思过程日志7. 应用场景作为人类,当我们进行自我反思时,我们会反思自己的行为,然后制定我们的下一步和行动。

2025-01-30 19:42:13 1019

原创 4种方法+1个工具,轻松用LLMs构建知识图谱!

大型语言模型(LLMs)的兴起彻底改变了我们从文本中提取信息和与之交互的方式。然而,尽管它们的能力令人印象深刻,LLMs在推理、一致性以及信息的上下文准确性等方面仍然面临一些固有的挑战。这些问题源于LLMs的概率性本质,可能导致幻觉(hallucinations)、缺乏透明性以及处理结构化数据的困难。这正是知识图谱(Knowledge Graphs, KGs)发挥作用的地方。通过将LLMs与知识图谱相结合,可以显著增强AI生成的知识。为什么呢?

2025-01-30 19:40:40 668

原创 MiniRAG:一种轻量级检索增强生成方法

这篇论文提出了MiniRAG系统,通过创新的异构图索引和轻量级启发式检索机制,有效地整合了基于文本和基于图的RAG方法的优势,同时显著减少了语言模型的需求。实验结果表明,即使在使用SLMs的情况下,MiniRAG也能达到与基于LLMs的方法相当的性能。此外,为了促进这一新兴领域的研究,作者发布了一个专门用于评估设备RAG能力的基准数据集,具有现实的个人通信场景和多约束查询。这些贡献为实现私有、高效和有效的设备RAG系统迈出了重要一步,为边缘设备AI应用开辟了新的可能性,同时保护了用户隐私和资源效率。

2025-01-29 10:45:00 677

原创 模型蒸馏(Model Distillation):AI模型小型化与高效化之道

模型蒸馏是一种知识迁移技术,其核心在于将一个大规模、预训练的教师模型(Teacher Model)所蕴含的知识传递给一个规模较小的学生模型(Student Model)。其目标是打造一个在性能上与大型模型相近,但计算资源消耗大幅降低的紧凑模型,恰似把一部厚重的百科全书浓缩成一本轻便实用的口袋指南,在精简的同时确保关键信息不流失。

2025-01-28 10:45:00 1108

原创 在入门RAG之前,先掌握如何用LLM实现文档问答

为了避免上下文限制、噪声干扰和成本等问题,通过优化查询思路进行文档问答。分段预处理保留关键信息,再利用嵌入模型生成语义向量,结合向量数据库高效检索相关内容。筛选后的精确片段由大语言模型生成答案,该思路显著提升文档查询的效率与准确性。1. 长文档查询存在的问题2. 查询的基本思路2.1 文档预处理2.2 嵌入与相关性检索2.3 模型生成与回答3.代码实现– 领取学习资料大礼包,见文末当下,大语言模型(LLM, Large Language Models)已经成为自然语言处理领域的核心力量。

2025-01-27 10:45:00 789

原创 CoRL-2024 | InstructNav:未知环境中的零样本通用指令导航智能体

论文开发了第一个在连续环境中无需任何导航训练或预建地图的通用指令导航系统InstructNav。通过引入动态链式导航(DCoN)和多源值图,实现了语言规划的DCoN转换为智能体可操作的轨迹。广泛的仿真和真实机器人实验展示了该方法的无训练性能和有效性。

2025-01-26 10:45:00 1510

原创 小白入门的DeepSpeed原理和代码实现

这篇文章探讨了在多个GPU上分布式训练神经网络的技术,并测试了微软的DeepSpeed库提供的多种分布式训练优化。本页的大部分内容将集中在减少训练神经网络所需的内存的技术上。因此,为了更好地理解和欣赏这些技术,我将首先分解训练过程中内存消耗的所有方式。根据Sohoni等人的说法,我将使用以下术语来描述训练期间内存消耗的来源(Sohoni等人只描述了三个来源,但我将梯度内存和优化器内存分开,因为DeepSpeed中也做了同样的区分,稍后将展示):模型内存:存储模型权重所需的内存。梯度内存:存储每个模型权重梯度

2025-01-25 10:45:00 1774

原创 大模型推理能力优化技术总结:兼看大模型落地6个误区

这其实是属于o1专题,大模型推理的范畴。这个方向上,目前主流方式是引入“cot”,即引入代表推理过程中间步骤的一系列标记,使LLMs能够模仿复杂的人类推理过程,如树搜索和反思性思维。最开始,大家发现,在测试时推理过程中鼓励大模型使用更多标记进行“思考”,可以进一步提高推理准确性。后面openai-o1 出来之后,大家有发现,可以应用强化学习(RL)来训练LLMs掌握推理过程,这种方法通过试错搜索算法自动生成高质量的推理轨迹,通过提供大量更多的训练数据显著扩展了LLMs的推理能力。

2025-01-24 10:45:00 650

原创 论文浅尝 | 从大型语言模型进行情境化提炼以完成知识图谱(ACL2024)

在这项工作中,我们提出了 情境化蒸馏,通过提示LLM生成描述性上下文来解决现有KGC文本数据的局限性。为了确保我们的方法在各种基于PLM的 KGC模型中的多功能性,我们设计了一个多任务学习框架。在这个框架内,我们结合了两个辅助任务,重建和情境化,这有助于在信息丰富的描述性上下文中训练较小的KGC模型。我们在几个主流的KGC基准上进行了实验,结果表明我们的情境化蒸馏始终如一地提高了基线模型的性能。此外,我们进行了深入分析,以使我们的方法的效果更易于解释,从而为如何有效地利用LLM来改进 KGC提供指导。

2025-01-23 15:42:28 722

原创 LLM对齐技术综述:RLHF、RLAIF、PPO、DPO 等

大语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等:论文对LLM对齐技术进行了全面综述,将相关研究论文分类为奖励模型、反馈、强化学习(RL)和优化等主题,详细解释各对齐方法,分析不同方法的优缺点,探讨未来研究方向,以帮助读者深入理解该领域现状,为研究人员提供参考。过去几十年中,通过自监督学习对 LLM 进行预训练取得了重大进步,这得益于更大的decoder-only Transformer 的发展、数万亿tokens的利用以及跨多个 GPU 的计算并行化。

2025-01-22 10:45:00 2446

原创 GraphRAG:基于知识图谱的RAG,好用,贼贵!

官网:https://microsoft.github.io/graphrag微软开源的一项结合了知识图谱的检索增强生成技术。简单来说,它可以显著提升AI知识库的性能,让AI能根据你提供的文档,更准确地回答你提出的复杂问题。

2025-01-21 14:35:40 597

原创 李飞飞丈夫,Salesforce首席科学家发长文,揭秘AI智能体时代!

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。在这些新模式中,AI智能体成了工作和交易的中介。最关键的是「协调者智能体」,它把前面这些智能体的工作成果汇总到一起,生成一个有条理、高效率,既符合品牌形象又贴合客户需求的回复。比如,我们的AI研究团队正在研究训练方法,教AI智能体遇到解决不了的难题时,把不确定的地方标出来,接着去寻求帮助。

2025-01-21 14:34:38 800

原创 MiniRAG:一个极致简洁、高效的新型RAG系统

对的系统需求日益增长,但RAG框架中部署)在语义理解和文本处理上存在局限,阻碍了广泛应用。与 LLMs 相比,。:SLMs生成的描述质量明显低于LLMs。:SLMs难以在大篇幅的上下文中找到相关信息,而LLMs则能有效地完成这项任务。为此,香港大学提出并了,这是一种专为而设计的新型RAG系统。MiniRAG引入了两项关键技术创新:(1)一种,将文本块和命名实体结合在一个统一结构中,减少了对复杂语义理解的依赖;(2)一种,利用图结构实现高效的知识发现,而无需高级语言能力。语义感知的异构图索引机制。

2025-01-20 20:17:43 618

原创 大模型部署的主流技术有哪些?

Ollama 是一个可在用户本地LLM部署的开源平台,支持Linux、Windows等多平台部署,如果基于 Docker 安装 Ollama 可以简化后续的配置步骤。Ollama支持 GPU加速,可显著提升性能。例如,在华为云的ECS上部署时,可以使用带有N卡的GPU加速型实例来运行Ollama容器。Ollama提供了一个直观且易于使用的命令行界面(CLI),使得即使是非技术人员也能轻松安装和使用。此外,它还支持通过HTTP接口和Web UI进行访问,进一步增强了用户体验。

2025-01-20 20:16:44 628

原创 使用 LangChain 和 Gemini 2.0 实现 Agentic RAG

访问外部知识源动态决定何时以及如何检索信息基于推理和检索路径调整响应设想一个 AI Agent,它可以根据用户查询动态决定是否从向量数据库中检索数据、执行网络搜索,或者直接生成响应。

2025-01-20 20:15:25 563

原创 RARE:突破性推理增强方法,让大语言模型精准应对复杂任务

随着大型语言模型(LLMs)在问答领域的广泛应用,其在处理复杂、知识密集型任务(如医学问答)时,面临着推理准确性和事实可靠性方面的挑战。虽然现有的推理方法(如思维链)在一定程度上提高了推理能力,但它们通常依赖于单一类型的操作,限制了探索的多样性和解决方案的有效性。此外,由于缺乏专门的数据集和评估指标,评估医学问答推理步骤的事实准确性仍然是一个难题。为了解决这些问题,本文提出了检索增强推理增强(RARE)方法。

2025-01-19 10:45:00 940

原创 超级个体时代:打造一人多智能体企业

在技术飞速发展的时代,我们正迎来一个崭新的工作方式——超级个体时代。在这个时代,个人能够借助强大的AI工具和技术,以前所未有的方式独立完成企业运营中的各项任务。这种变化催生了“一人多智能体企业”的概念,即一个人管理多个智能体来完成从前需要一个团队才能完成的工作。

2025-01-18 10:45:00 1857

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除