- 博客(478)
- 收藏
- 关注
原创 轻型民用无人机驾驶航空器安全操控——理论考试多旋翼部分笔记
ADS-B(Automatic Dependent Surveilance-Broadcast)中文名称为广播式自动相关监视,是一种基于全球卫星定位系统和利用空地、空空数据链实现交通监控和信息传递的空管监视新技术。该技术能够实现飞行信息共享、装备了此系统的飞机可通过数据链广播其自身的精确位置和其他数据、可接收其他飞机通过此系统广播的位置等信息,但不可对民用无人驾骏航空器的刹停进行控制。
2024-02-01 19:03:55
75471
12
原创 GraphRAG 论文精读:为什么普通 RAG 回答不了“全局问题”?
《GraphRAG:解决传统RAG的全局理解局限》 本文分析了微软研究院提出的GraphRAG方法,该方法创新性地解决了传统检索增强生成(RAG)系统在回答全局性问题时的不足。传统RAG依赖向量检索,擅长处理局部事实查询,但对需要理解整个语料库主题、趋势和关系的全局问题效果有限。 GraphRAG的核心创新在于构建结构化知识图谱索引:首先通过LLM从文本中抽取实体关系,形成知识图谱;然后使用社区检测算法划分主题模块;最后为每个社区预生成摘要。查询时采用Map-Reduce方法,先由各社区摘要生成局部答案,再
2026-05-29 09:00:00
772
原创 Seal-Tools 论文精读:一个面向 Agent 调优与工具调用评测的自指令工具学习数据集
Seal-Tools论文提出了一种自指令生成工具学习数据集,用于Agent调优与工具调用评测。该研究通过分层生成流程(领域→工具→实例)构建了包含4076个工具和14076条实例的数据集,重点解决了现有工具学习数据在规模、复杂调用(特别是586条嵌套调用)和细粒度评测方面的不足。实验表明,基于该数据集微调的模型在工具选择和参数填写能力上显著提升(ToolF1达80.25),但工具检索和多工具组合仍是主要瓶颈。研究创新点在于系统化的数据构造方法、嵌套调用模板设计以及格式/工具/参数三阶段评测框架,为工具依赖建
2026-05-28 09:00:00
833
原创 当大模型不会判断“该不该用工具”:ICLR 2024 MetaTool / ToolE 论文详解
本文介绍了ICLR 2024论文《MetaTool Benchmark for Large Language Models》,该研究聚焦大语言模型在工具调用前的决策能力,提出了ToolE数据集和MetaTool评测基准。论文创新性地将工具使用流程分解为"是否使用工具"和"选择哪个工具"两个前置决策阶段,设计了四类工具选择任务:相似工具区分、场景适配、可靠性判断和多工具选择。研究通过层次聚类和人工处理解决了工具功能重叠问题,构建了包含21,127条多样化查询的数据集。实
2026-05-27 14:00:00
600
原创 ToolAlpaca 论文详细分析:用 3000 多条模拟数据,让小模型学会泛化调用工具
ToolAlpaca 论文详细分析:用 3000 多条模拟数据,让小模型学会泛化调用工具
2026-05-27 09:00:00
857
原创 Gorilla 论文详细分析:让大模型真正学会调用海量 API
论文《Gorilla: Large Language Model Connected with Massive APIs》提出了一种基于LLaMA-7B微调的大语言模型,专注于准确生成API调用代码。核心贡献包括:构建APIBench数据集(包含1,645个API调用)、提出检索感知训练方法(让模型学会利用外部API文档)、采用AST子树匹配评估API调用准确性。实验表明,Gorilla在zero-shot设置下优于GPT-4,准确率达83.79%(TensorFlowHub)。研究强调高质量检索对性能的关
2026-05-26 14:00:00
375
原创 API-Bank 论文详细分析:面向工具增强大模型的综合评测基准
《API-Bank:工具增强大语言模型的评测基准》论文摘要 该论文提出了API-Bank评测基准,用于评估大语言模型使用工具(如API)的能力。研究将工具使用能力分为三个层级:基础调用(Call)、检索调用(Retrieve+Call)和规划调用(Plan+Retrieve+Call)。通过构建包含73个真实API的可执行评测系统,研究发现:1)GPT-4表现最优(60.24%正确率),但API检索仍是瓶颈;2)指令微调对工具使用能力至关重要;3)基于Alpaca-7B微调的Lynx-7B模型性能提升显著(
2026-05-26 09:00:00
7477
原创 Graph RAG-Tool Fusion:把工具依赖关系装进图里,让工具检索不再只靠语义相似度
GraphRAG-ToolFusion提出了一种创新的工具检索方法,通过将工具依赖关系融入图结构,显著提升了工具检索的完整性。该方法采用两阶段流程:首先通过向量检索找到语义相关的主工具,然后在预构建的工具知识图谱中遍历依赖关系,补充必要的辅助工具。实验表明,在包含573个虚构工具的数据集ToolLinkOS上,该方法将mAP@10从传统RAG的0.210提升至0.927。该方法特别适用于工具数量多、依赖关系复杂的场景,为解决工具检索中"语义相似但依赖缺失"的问题提供了有效方案。
2026-05-25 09:00:00
7571
原创 ToolLLM 论文详细分析:让开源大模型掌握 16000+ 真实世界 API
大模型不会用工具?ToolLLM 让开源模型掌握 16000+ 真实 API,直追 ChatGPT!
2026-05-22 09:00:00
7604
原创 Re-Invoke 论文详细分析:用“工具调用重写”提升零样本工具检索能力
《Re-Invoke:零样本工具检索中的工具调用重写方法》提出了一种无监督工具检索框架,通过双向语义改写提升大语言模型Agent的工具调用能力。该方法包含三个核心模块:1)离线阶段用LLM为每个工具文档生成多样化用户查询(synthetic queries),扩展工具语义表示;2)在线阶段用LLM从用户输入中抽取出明确的工具调用意图;3)多视角相似度排序机制,综合多个意图与增强工具文档的匹配结果。实验表明,在ToolE数据集上该方法使单工具检索nDCG@5提升20%,多工具检索提升39%。其创新性在于同时优
2026-05-21 13:00:00
15260
原创 Multi-Field Tool Retrieval论文详细分析报告
《Multi-Field Tool Retrieval》论文提出了一种新型工具检索方法MFTR,通过结构化工具文档和用户查询实现更精准的工具匹配。该方法将工具文档拆分为功能描述、输入参数、输出结果和使用示例四个关键字段,并采用自适应加权机制进行多字段匹配。实验表明,MFTR在五个数据集和混合benchmark上显著优于传统方法,NDCG@10最高提升47.98%。论文创新性地将工具检索从单纯语义匹配扩展到功能可用性评估,为LLM Agent系统提供了更可靠的工具检索方案。
2026-05-21 09:00:00
15021
原创 Retrieval Models Aren’t Tool-Savvy论文详细分析报告
论文《RetrievalModelsAren'tTool-Savvy》揭示了通用检索模型在工具检索任务上的局限性。作者构建了首个工具检索基准TOOLRET,包含7,615个检索任务和43,215个工具文档,并开发了20万规模的训练集TOOLRET-train。研究发现,即使BM25、BGE等强检索模型在传统任务表现优异,但在工具检索中平均NDCG@10仅33.83,主要由于工具文档与用户查询词面重叠低(ROUGE-L仅0.06)及工具功能边界模糊。实验表明,加入任务说明(instruction)可使NV-E
2026-05-20 13:00:00
16922
原创 Tool-REX 论文详细分析:工具文档太简陋?简单扩展文档就能显著提升工具检索
论文《ToolsAreUnder-Documented:SimpleDocumentExpansionBoostsToolRetrieval》提出工具检索效果不佳的关键原因在于工具文档质量不足。作者开发了TOOL-REX系统,通过大语言模型对原始工具文档进行结构化扩展,补充function、tags、when_to_use等关键字段,显著提升了文档质量。基于扩展后的文档,作者训练了专用检索模型Tool-Embed和重排序模型Tool-Rank,在ToolRet基准测试上取得了新的SOTA结果。实验表明,文档
2026-05-20 09:00:00
16738
原创 ToolExpNet 论文详细分析:用“工具关系图”解决多工具选择中的相似混淆与依赖忽略问题
ToolExpNet论文提出了一种基于工具关系图的经验网络,用于优化大语言模型中的多工具选择问题。该方法通过构建包含工具节点、语义相似边和功能依赖边的图结构,解决工具误选和依赖忽略两大核心问题。系统采用对比关系试错和工具经验精炼两阶段学习,显著提升了工具调用准确率。实验表明,该方法在GPT-4o等模型上表现优异,在TMDB、Spotify等真实API场景中正确路径率最高达90%。相比传统方法,ToolExpNet的创新在于将工具学习从单工具理解扩展到工具关系理解,为复杂任务中的多工具协作提供了有效解决方案。
2026-05-19 09:00:00
16752
原创 ToolRerank 论文详细解读:一种面向工具检索的自适应层次感知重排序方法
本文提出ToolRerank方法,针对大规模工具检索任务设计了一种自适应层次感知的重排序框架。该方法通过区分已见/未见工具采用不同候选截断策略(ms=10/mu=50),并利用工具库的层次结构进行重排序:对单工具查询集中同工具API,对多工具查询保持功能多样性。实验表明,该方法在ToolBench数据集上显著优于传统检索方法,NDCG@5达82.1,Recall@5达84.2,同时提升下游LLM工具调用的成功率。创新点在于将工具层次结构信息融入重排序过程,为工具检索领域提供了新思路。
2026-05-18 09:00:00
18595
原创 COLT论文详细分析:面向完整性的工具检索方法
【摘要】COLT论文提出了一种面向完整性的工具检索方法,针对传统工具检索仅关注语义相似度而忽视多工具协同的问题进行改进。该方法通过两阶段学习框架(语义学习+图协同学习)和创新的COMP@K评估指标,显著提升了多工具场景下的检索完整性。实验表明,COLT在ToolLens和ToolBench数据集上均优于传统检索方法,尤其在需要3-4个工具的复杂任务中优势明显。该研究为工具增强型大语言模型提供了更有效的检索方案,同时为图结构增强工具检索领域提供了重要参考。
2026-05-17 13:00:00
18590
原创 我让 AI 帮我规划一天,结果它比我妈还想控制我
《当AI规划遇上大学生活:一场理想与现实的碰撞》 一位大学生尝试用AI规划"高效健康"的一天作息,结果得到了一份特种兵式的时间表:6:30起床晨跑、精确到分钟的学习时段、强制午休和准时入睡。这份计划暴露了AI与真实大学生活的巨大鸿沟——它把人视为可精准控制的机器,却忽略了人类天然的惰性、随机性和拖延本能。 作者幽默地对比了AI理想中的"赛博自律人"与现实中的自己:晨跑变成灵魂拷问、学习时自动切换聊天软件、午休直接穿越到黄昏、代码调试演变成精神稳定性测试。最终发现,真正
2026-05-08 10:26:02
21303
2
原创 “雪泥鸿爪处,独行亦成章”——基于大学生亲密关系延迟选择的形成机制与调适路径研究
本文围绕高校学生在特定成长阶段中选择暂缓进入亲密关系的现象,分析其形成机制、影响因素与调适路径。文章综合大学生亲密关系、单身处境、社会支持、独处能力与社交媒体使用等相关研究,提出“场域暴露—浪漫可读性—替代性支持”三元分析框架。研究认为,大学生非恋爱状态的持续并不等同于社会退缩,而是与边界管理、自我呈现方式、社交节奏控制和支持系统配置密切相关。结果表明,相较于消极回避,高质量的非恋爱状态更依赖于稳定的独处能力、清晰的时间边界、低误读的互动方式以及去恋爱中心化的情绪支持网络。本文进一步指出,亲密关系的进入与延
2026-05-08 10:17:26
21882
1
原创 RAG 要被淘汰了?真正的升级方向是 Agentic RAG:让大模型自己查资料、做判断、会反思!
普通 RAG 只是“检索一次再回答”,而 Agentic RAG 让大模型自己决定查什么、查几次、用什么工具、是否继续验证。它正在把知识库问答升级成真正会思考的 AI 助手。
2026-05-06 08:45:00
21404
原创 AI Agent 要变天了:MCP 只是开始,A2A 才是智能体协作的关键拼图!
AI Agent 不再只是“会调用工具”,而是开始互相协作。MCP 连接工具,A2A 连接智能体,这套协议正在重塑 Agent 生态。看懂它,才算真正理解下一代 AI 应用。
2026-04-30 11:06:12
20663
原创 一文讲清 MCP:为什么它可能成为 AI Agent 时代的“工具接口标准”
MCP 正在把文件、数据库、代码仓库、企业系统统一接入大模型,让 AI 不再只是“会聊天”,而是开始真正“会办事”。这篇文章带你一次讲清:MCP 是什么、为什么突然火了、它和 Function Calling/RAG 有什么区别,以及它为什么可能成为 Agent 时代绕不开的底层标准。
2026-04-29 19:57:13
20978
原创 万物皆可 Skill?从“人格蒸馏”到 Agent Skill 的技术实现原理
老板、同事、前任,甚至“自己”都能被做成 .skill?这不是科幻,而是 Agent 时代正在发生的新玩法。
2026-04-29 11:11:55
20161
原创 全新思路!ACL2026解析《ToolOmni Enabling OpenWorld Tool Use via Agentic learning with Proactive Retrieval..》
ACL2026(CCFA)全新论文解析,AI agent又进化了??
2026-04-18 17:30:49
27605
原创 Submodular function次模函数 概念——AI学习
摘要:本文综述了次模函数(Submodular Functions)在机器学习和人工智能中的应用。次模函数具有边际收益递减特性,适用于解决离散优化问题,如特征选择、数据集采样、主动学习和聚类等。文章通过类比连续优化中的凸函数,阐述了次模函数在离散优化中的重要作用,并介绍了其数学定义、直观解释和典型例子。重点讨论了次模函数优化的理论保证(如贪心算法的63%近似比)及其在文本摘要、数据压缩等实际任务中的应用价值。次模函数为解决组合优化问题提供了高效的理论工具。
2026-03-23 09:00:00
19987
原创 ColBERT论文研读——NLP(IR)里程碑之作
NLP(IR)里程碑之作,如何优化BERT(chatGPT升级),如果你对NLP,LLM好奇,欢迎阅读全文
2026-03-16 09:00:00
24460
原创 2026程序员兼职平台推荐与实操指南
沟通、环境搭建、调试和后期维护,往往才是兼职中最容易被低估的部分。如果忽略这些隐性成本,长期下来反而会形成“越接越亏”的错觉。
2026-02-07 17:13:04
851
原创 基于 IPIDEA 的 GitHub 代码文件抓取与数据可视化实践(Python 实现)
本文记录了使用IPIDEA API抓取GitHub仓库信息的实践过程。通过分析网页抓取的工程挑战,包括页面结构不稳定、访问频率受限等问题,作者转向使用IPIDEA WebScraper API解决方案。文章详细演示了API调用方法,展示了抓取结果包含的代码内容、仓库元数据和文件上下文等结构化信息,并利用Python进行数据可视化分析。实践表明,该API能有效降低工程复杂度,提供稳定的数据采集能力,适用于开源项目分析、代码质量研究等场景。
2026-01-16 11:58:47
59414
6
原创 国内用户怎么选?2025年十大远程控制软件真实体验报告
2025年国内远程控制软件体验报告显示,ToDesk以9.5分高居榜首,凭借本土化网络优化、国产系统适配及性价比优势成为首选。向日葵(7.6分)硬件生态突出但软件体验争议大,TeamViewer(7.0分)因海外服务器导致连接不稳定。报告指出,国内用户应优先考虑网络兼容性、国产系统支持及服务质量,而非盲目选择国际品牌。ToDesk在免费版功能、付费版性能及客服响应等方面表现最优,特别适合设计剪辑等高要求场景,是当前国内远程控制的最优解决方案。
2025-12-18 17:42:57
21053
原创 基于昇腾平台的Qwen大模型推理部署实战:从模型转换到推理(含代码)
本文详细介绍了在GitCode昇腾云服务器上部署vLLM推理服务的完整流程。从环境准备开始,包括NPU可用性验证和基础算子测试;到模型转换阶段,将Qwen-1.8B模型从PyTorch转换为ONNX格式,再通过ATC工具编译为昇腾专用的OM格式;最后展示如何使用ACL接口在NPU上执行推理。 关键步骤包含:1) 昇腾环境配置与验证;2) 模型格式转换中的问题排查与优化;3) 完整的ACL推理流程实现。测试结果显示,该部署方案在NPU上运行稳定,当批次大小从1增加到8时,吞吐率从12.1提升到87.5 tok
2025-12-01 18:49:23
29613
1
原创 深度学习数学基础(一)——线性代数、线性代数和微积分
本文系统讲解了深度学习所需的三大数学基础:线性代数、概率统计和微积分。在线性代数部分,重点解析了向量、矩阵、张量的概念与应用,矩阵乘法、张量操作(reshape/transpose/broadcast)的实现原理,以及特征值分解和SVD在模型分析中的作用。概率统计部分阐述了概率分布(特别是多项分布在语言模型中的应用)、最大似然估计与神经网络训练的关系、KL散度作为损失函数的本质。微积分部分则着重讲解了偏导数、链式法则在反向传播中的核心作用,以及梯度下降优化算法的数学原理。全文通过具体示例(如Transfor
2025-12-01 18:01:08
1345
2
原创 仓颉性能探索:与Python的数值计算对比
本文对比了华为仓颉语言与Python在数值计算任务中的性能表现。实验选取循环求和与矩阵运算两个典型场景,结果显示:仓颉在计算密集型任务(1-10亿循环求和)中执行速度比Python快约49倍(1325ms vs 64740ms);在内存密集型矩阵运算中也保持1.1倍优势(9841ms vs 10752ms)。分析表明,仓颉通过编译器优化(CHIR前端优化、SLP向量化等)和运行时优化(轻量锁、并发Tracing等)显著提升了计算性能,尤其适合嵌入式开发和高性能计算场景。随着鸿蒙生态的发展,仓颉在系统级开发领
2025-11-07 08:30:00
22697
3
原创 微信小程序开发——第五章:小程序的组件与模块化开发
本文系统介绍了微信小程序API的核心功能与应用场景,重点讲解了界面交互API(如提示框、对话框)、页面导航(多种跳转方式)、网络请求(GET/POST方法)、本地数据缓存(读写操作)、用户授权以及设备位置信息获取等关键接口。通过对各类API的详细解释和代码示例,展示了如何实现小程序与微信系统的交互功能,帮助开发者掌握构建具有完整业务逻辑的小程序所需的核心技术要点,为开发交互性和功能性更强的小程序打下坚实基础。
2025-11-07 03:15:00
1367
原创 微信小程序开发——第四章:小程序的组件与模块化开发
文章摘要: 本章重点讲解微信小程序的组件与模块化开发。首先介绍了内置组件分类及使用示例,包括视图容器、表单、导航等类型。其次详细说明如何创建自定义组件,实现复用功能模块,并通过properties和自定义事件实现父子组件数据传递。最后介绍模块化开发方法,将公共逻辑提取为JS模块。掌握组件思想是构建复杂小程序的关键,有助于实现代码复用与功能封装。
2025-11-06 23:22:16
1060
原创 微信小程序开发——第三章:WXML 与 WXSS —— 小程序页面结构与样式设计
本章系统介绍了微信小程序的核心技术WXML和WXSS。WXML作为小程序的结构语言,提供数据绑定、条件渲染、列表渲染等功能,其语法类似HTML但更加简洁。WXSS则是小程序样式语言,支持独特的rpx单位实现自适应布局,推荐使用Flex布局方式。通过本章学习,开发者可以掌握小程序页面结构与样式设计的基础方法,包括数据动态绑定、条件判断、循环渲染、模板复用等关键技术,为开发美观规范的小程序界面奠定基础。
2025-11-06 22:58:10
1484
原创 微信小程序开发——第二章:微信小程序开发环境搭建
本文介绍了如何使用 Python + OpenCV 实现一个实时人脸识别系统。整个流程简单高效,非常适合初学者入门计算机视觉。如果你已经成功运行,恭喜你迈出了 AI 开发的第一步!🎉。
2025-11-06 22:38:58
1172
原创 GMNER多模态实体识别任务——ReAct结合
摘要:本文介绍了GMNER多模态实体识别任务,利用ReAct机制结合语言模型和视觉模型实现图文联合识别。系统采用三阶段流程:1)语言模型推理实体及类型,2)GroundingDINO定位图像实体,3)结构化输出结果。ReAct通过"思考-行动"闭环增强可解释性,GPT类模型负责文本理解,GroundingDINO专精图像定位。该方案可有效识别军事领域实体,并输出实体类型及图像位置信息。
2025-11-06 22:19:01
1059
原创 比YOLO还厉害?Grounding DINO模型说明使用(附全部源代码和效果展示)
GroundingDINO是一种基于Transformer的开放集目标检测模型,通过融合视觉和文本特征实现零样本检测。其核心创新在于跨模态融合机制:使用SwinTransformer提取图像特征,BERT解析文本语义,并通过特征增强器、语言引导查询选择和跨模态解码器动态对齐图文信息。相比传统检测模型,GroundingDINO无需预定义类别,可直接根据文本提示(如"红色汽车")定位目标,在COCO数据集的零样本场景下达到52.5AP。模型支持多任务应用,但存在对复杂语义理解不足、实时性较
2025-11-06 22:09:26
11098
原创 微信小程序开发——第一章:概述
概述。微信小程序是基于微信生态的轻量级应用,具有"即用即走"的特点,用户无需安装即可使用。与传统App相比,小程序开发成本低、启动快、自动更新,但功能有所局限。其采用双线程架构(逻辑层+视图层)实现数据交互,开发语言包括WXML、WXSS和JavaScript。小程序适用于电商、餐饮、政务等多个场景,依托微信生态易于推广。开发流程包括注册账号、编写代码、调试和发布等步骤。虽然小程序具有轻量化优势,但不适合复杂项目,且功能受微信平台限制。本章为小程序开发奠定了理论基础。
2025-10-13 20:38:42
1383
原创 GNN入门Demo——Cora 引文网络上的节点分类
本文介绍了图卷积网络(GCN)的基本原理及其在Cora引文网络上的节点分类应用。GCN将CNN思想扩展到图结构数据,通过聚合邻居节点特征来更新节点表示。文章详细讲解了GCN的工作原理、数学公式和典型应用场景。通过PyTorch Geometric实现了一个两层GCN模型,在Cora数据集上训练并评估节点分类任务,最终测试准确率达到80.2%。同时使用t-SNE将节点特征降维可视化,直观展示了不同类别节点的分布情况。代码实现涵盖了数据加载、模型定义、训练过程和结果评估等完整流程,为理解GCN提供了实践参考。
2025-09-04 07:30:00
1335
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅