- 博客(105)
- 资源 (3)
- 问答 (4)
- 收藏
- 关注
原创 基于知识图谱的多跳问答优化
基于聊天记录的问答——数据分块篇基于聊天记录的问答——问答篇在前文中,我们已经详细介绍了聊天记录问答中的数据分块和问答流程,基于以上的方案,已经能够解决80%以上的问题了,但是,对于复杂多跳类问题,仍然无法解决,这篇文章,正是基于此展开,解决这最后20%的问题。
2026-03-09 16:11:05
350
原创 Agent Skills 必知必会
Agent Skills是一种模块化解决方案,通过标准化目录结构(包含SOP、工具和资源)为智能体提供特定任务能力。其核心优势在于分层加载机制:仅预加载技能名称和描述(约100 tokens),需要时才加载详细内容和资源,相比传统方式可节省90% token消耗。每个技能由SKILL.md文件定义,采用渐进式披露设计,包含YAML元数据和执行指南。技能还能捆绑确定性代码工具,提升执行效率。这种设计使智能体能灵活扩展功能边界,同时保持上下文窗口的高效利用。
2025-12-28 20:53:54
1321
1
原创 国产GPU适配实战——五款二线主流AI加速卡深度评测
本文分享了国产显卡适配经验,重点评测了海光DCU K100_AI和寒武纪MLU370-M8两款产品。海光DCU凭借对CUDA无缝兼容、完善文档生态和零迁移成本等优势,成为适配体验最佳的二线国产卡。寒武纪MLU则需技术支持,适配方式类似昇腾。文章提供了详细的硬件规格、生态资源获取渠道和代码适配方案,为开发者选用国产显卡提供了实用参考。
2025-12-17 16:02:53
2345
原创 主流国产显卡调研报告
随着人工智能和大模型技术的快速发展,GPU算力需求持续增长。在国际形势变化和供应链安全的背景下,国产GPU/DCU成为重要的战略选择。本报告对当前市场上主流的国产AI加速卡进行全面调研,从硬件规格、软件生态、性价比等维度进行分析评估,为采购决策提供参考依据。昇腾毋庸置疑是国产卡第一首选,本文主要叙述除昇腾外的其它国产显卡。当前国产GPU/DCU市场格局初步形成,但整体生态仍在建设中。寒武纪和海光DCU是目前生态最完善的两家,建议优先考虑沐曦和摩尔线程有一定潜力,但需关注后续发展。
2025-12-08 16:47:25
1782
1
原创 Agent之Self-Discover
Github:整个论文的核心,是让模型自己找到解决复杂问题的思考框架,不用人工提前帮它设计固定思路。先举个简单的例子:以前让模型解数学题或逻辑题,常用的 “思维链(CoT)” 是让模型 “一步一步想”,但这种固定思路不是万能的 —— 比如解 “拆分任务类” 问题(像把复杂符号题拆成小步骤),“一步一步想” 就不如 “先拆任务再解决” 好用。而 SELF-DISCOVER 的关键,就是让模型自己判断:“这个任务该用哪些思考方法组合起来?总的来说,
2025-12-04 14:02:03
943
原创 Agent之LATS
本文比较了两种基于树搜索的大语言模型推理方法:ToT(Tree of Thoughts)和LATS(Language Agent Tree Search)。关键差异在于: 搜索算法:ToT采用贪心剪枝策略,每步只保留Top-K候选;LATS使用蒙特卡洛树搜索(MCTS),通过UCB公式平衡探索与利用,允许回溯历史节点。 评估机制:ToT使用简单标签评估;LATS引入结构化反思和0-10评分系统,评估结果会作为后续推理的上下文。 流程设计:LATS包含完整的MCTS四阶段(选择、展开、评估、反向传播),通过迭
2025-12-01 17:25:58
922
原创 Agent之LLMCompiler
Github:本文实验代码:可以看作是ReWOO 和 Plan-and-Execute 的优化版本,Plan-and-Execute解决了ReWOO生成的任务列表无法基于当前环境实时变化的问题,但所有的任务,仍然是顺序执行的,比如要对比两个人的国籍,得先搜第一个人的信息,等结果出来再搜第二个人,中间还得反复让模型判断 “下一步该干嘛”。基于能并行的任务一起干的核心思想,解决了先前的Agent框架中普遍存在的任务需要顺序执行的问题,从而达到加速、省Token的目的。
2025-11-30 14:11:38
671
原创 Agent之Plan-and-Solve——计划赶不上变化
本文实验代码熟悉ReWOO的同学会发现,Plan-and-Solve怎么和ReWOO怎么那么像,实际上,本文要分享的是Plan-and-Execute。阅读本文之前,建议看看Agent之ReWOOPlan-and-Solve原文,实际只是对提示词的改进而已,主要是对原先的 “Let’s think step by step” 进行了一些细化。这里直接贴一下AI的理解:Plan-and-Solve核心方法:先 “规划” 再 “解题”:分为PS 提示法和PS + 提示法。
2025-11-26 20:27:24
779
原创 Agent之ReWOO
ReWOO的局限性本质是 “静态规划” 与 “动态现实” 的矛盾 —— 它在任务逻辑清晰、工具稳定的场景(如多步 QA、固定流程的数据分析)中优势显著,但在环境未知、工具多变、任务复杂的场景(如实时交互机器人、动态决策系统)中仍有明显短板。Kiro中的Planer模式,与ReWOO几乎一致,先生成一个需求文件,再根据需求文件,一项一项完成编码。但实际用下来,不太好用。Cursor中也有类似的,对应的是TODO LIST。但Cursor中的TODO LIST。
2025-11-26 16:01:25
1044
原创 Agent之Reflexion
本文探讨了LangChain框架中Reflexion模块的实现与论文原版的差异。LangChain版本主要通过Revisor组件实现答案迭代优化,包含生成反思、搜索查询和修订答案的循环过程。而原论文Reflexion架构更强调记忆系统,包含短期记忆(记录历史优化轨迹)和长期记忆(存储优化经验)两个核心模块。实验代码可见于GitHub项目llm-reasoners,展示了基于语言模型的强化学习在智能代理中的应用。
2025-11-25 21:11:04
856
原创 Agent之Reflection
文章摘要:本文介绍了大语言模型中的Reflection(反思)设计模式,通过让模型自我评估和迭代改进来提升输出质量。作者以作文写作为例,展示了如何让模型生成初稿后,再扮演教师角色进行评价,最后基于反馈重新生成改进版本。文章提供了两种实现方式:基础代码示例展示了单次反思流程,而LangGraph版本则实现了多轮迭代的自动化循环。该方法体现了"左右互搏"的模型自我优化思想,适用于需要高质量输出的任务场景。
2025-11-23 22:00:32
453
原创 Tree of Thoughts:让大语言模型像人类一样思考
摘要:Tree of Thoughts (ToT)是一种新型的大语言模型推理框架,通过构建解决方案树实现多步推理。论文以Game24游戏为例,展示了ToT如何通过生成-评估-选择的三步循环进行智能搜索:首先生成多个候选操作(如1+1=2),然后评估每个候选的前景(sure/likely/impossible),最后选择最优路径继续探索。相比传统方法,ToT能同时考虑多种可能性,支持回溯修正,显著提升复杂问题的解决能力。实验代码已开源,为理解大模型推理机制提供了新视角。
2025-11-22 16:22:57
1197
原创 LeanRAG问答流程深入分析
本文对比了LeanRAG与HiRAG在图谱构建和推理过程上的差异。LeanRAG作为HiRAG的优化版本,简化了图谱构建过程,仅使用实体embedding的层级聚类,并采用最低共同祖先(LCA)路径搜索构建推理路径。核心算法包括:1)生成实体对组合;2)查找实体到根节点的路径;3)计算最短路径;4)收集关系信息。与HiRAG相比,LeanRAG通过LCA策略实现更紧凑的路径连接,减少上下文冗余,而HiRAG则利用高层摘要实体作为桥梁保证全面覆盖。两种方法在构建推理路径时体现了不同的设计目标。
2025-10-16 14:17:14
1161
原创 HiRAG问答流程深入分析
HiRAG是一种基于层次化知识增强的检索生成方法,通过构建多层级知识图谱提升问答效果。其核心流程包括:1)知识图谱构建,通过实体抽取、关系抽取形成基础图谱;2)实体层级聚类,使用高斯混合模型逐层聚合实体,以稀疏度(衡量聚类分散程度)作为停止条件;3)社区发现,采用Leiden算法检测知识社区。该方法创新性地融合了图拓扑层次和语义抽象层次,其中高层级的抽象实体(稀疏度≥98%)不参与检索但丰富了知识表示。实验表明,这种层次化结构能有效提升复杂问题的回答质量。相关代码已开源在GitHub。
2025-10-15 20:11:46
863
原创 Paraformer实时语音识别中的碎碎念
语音识别服务中的尾部音频丢失问题 在使用Paraformer实时语音识别服务时,发现短音频(2-3秒)尾部内容(如"上号"中的"号"字)无法正确识别。通过分析发现: 客户端补静音空包可正确识别 服务端补固定包大小时仍会漏识 在服务端额外补0.12s空包后识别正常 问题原因可能与音频数据包处理方式有关,特别是在短音频尾部处理时,模型需要足够上下文才能准确识别。解决方案涉及调整音频数据包的大小和补零策略,确保模型有足够信息进行完整识别。
2025-08-20 15:46:19
708
原创 RAG之图文混排
本文探讨了如何让大语言模型(LLM)生成图文混排内容的方法。针对产品手册等知识库问答场景,提出了两个关键解决方案:1)通过调整提示词(Prompt),明确要求LLM保留并输出原始图片URL;2)针对长URL容易出错的问题,采用"短键映射"策略,先用唯一短键替换长URL,待LLM输出后再映射回原链接。文章还展示了实现代码片段,包括图片URL提取、短键生成和图片描述自动生成等关键步骤,最终生成符合Markdown或HTML格式的图文内容。这种方法有效解决了纯文本回答无法满足用户视觉指引需求的
2025-07-24 10:32:23
744
原创 基于聊天记录的问答——问答篇
本文介绍了基于聊天记录的问答系统实现方案,主要采用GraphRAG和Text2SQL两种技术相结合的方法。GraphRAG擅长处理全局性问题(如人物特征分析、话题检索等),而Text2SQL则适用于精确查询(如特定时间段的聊天记录查询)。文章详细阐述了两种技术的实现策略:GraphRAG通过实体关系抽取和合并来实现全局性回答,采用昵称映射解决特殊字符和复读问题;Text2SQL通过路径向量化和LLM重排来快速定位查询表。系统最终结合两种技术,并加入Text2CQL来保证效果,虽然响应时间较长(约1分钟),但
2025-07-07 15:05:16
841
原创 基于聊天记录的问答——数据分块篇
本文介绍了基于聊天记录的问答项目中数据分块的关键方法。针对聊天记录的特点,作者提出了四步分块策略:1) 基于120分钟时间间隔的初步划分;2) 通过0.8相似度阈值合并相关窗口;3) 将超过8k token的长窗口分割;4) 合并短窗口以提高处理效率。该方法有效保持了话题完整性,解决了消息碎片化和LLM上下文限制问题。文中还提供了Python实现代码示例,包括时间分块、相似度合并等核心逻辑。这种分块方案为后续的RAG、Text2SQL和GraphRAG应用奠定了基础,尤其适用于需要保持对话连贯性的业务场景。
2025-07-05 22:03:04
1112
原创 开源AI实用宝微信小程序(已接入支付)
本项目是一个集成多种AI功能于一体的智能工具箱,以"智能工具,一触即达"为核心理念,通过简洁直观的界面,让用户轻松体验AI技术带来的便利。已完成微信支付接入,可实现功能付费和会员订阅,具备完整的商业变现能力。
2025-06-17 17:51:53
1513
原创 DSPy Prompt自动生成最佳实践
DSPy框架入门与实践:复杂问题分解任务探索 摘要:本文介绍了斯坦福大学开发的DSPy框架,这是一个用于构建基于语言模型应用的编程框架。通过一个复杂问题分解任务(将主问题拆解为多个子问题),展示了DSPy的实际应用流程。作者使用生成的数据集,包含16组问答对,涵盖了商业、科技、地理等多个领域的问题分解示例。实验采用编辑距离作为评估指标,当生成的子问题与参考答案的相似度超过80%时判定为正确。由于数据量较小,实验中训练集、验证集和测试集使用了相同的数据。该案例展示了DSPy从编程角度构建语言模型应用的思路,区
2025-06-11 18:04:32
1170
原创 开源实时语音交互大模型Ultravox-cn
Ultravox是一种新型的多模态LLM,能够理解文本和人类语音,无需单独的自动语音识别(ASR)阶段。基于等研究,Ultravox能够将任何开放权重LLM扩展为一个多模态投影器,直接将音频转换为LLM使用的高维空间。由于官方版本模型对中文支持较差,因此,我们训练了基于Qwen2.5-7B-Instruct和whisper-large-v3-turbo的中文友好的语音多模态模型。
2025-04-13 21:36:56
695
1
原创 LightRAG简要概述
多种模式问答: “naive”, “local”, “global”, “hybrid”, “mix”4、插入图数据库,其中,实体描述和关系描述,都会被向量化,插入向量数据库中,以便检索时使用。3、合并实体,根据多个实体描述,进行摘要,作为最后的实体描述。2、LLM判断是否有漏掉的实体与关系,如有则接着提取。直接用query检索文档chunk,不展开叙述。local 与 global得到的数据进行合并。hybrid 与 naive得到的数据进行合并。如果没有找到低级关键词,则走global模式。
2025-03-17 20:18:46
1122
原创 基于Ultravox训练自己的语音大模型
Ultravox 是一种新型的多模态语言模型,能够理解文本以及语音,无需单独的音频语音识别(ASR)阶段。基于像AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究,Ultravox 能够使用多模态投影扩展任何开放权重的语言模型,该投影将音频直接转换为语言模型使用的高维空间。我们已经在 Llama 3、Mistral 和 Gemma 上训练了版本。这种直接耦合使得 Ultravox 比结合单独的 ASR 和语言模型组件的系统响应速度快得多。
2025-03-06 21:05:25
1319
原创 Ktransformers实践-仅用14G显存就能跑Deepseek-R1 671B
KTransformers 的原理主要基于以下核心技术:1. **异构计算与任务卸载**:通过混合专家(MoE)架构的稀疏性,将稀疏矩阵卸载到 CPU/DRAM 处理,稠密部分保留在 GPU 上,从而大幅降低显存需求。2. **高性能算子优化**:- 在 CPU 端,使用 Llamafile 内核结合多线程、任务调度和负载均衡优化,提升推理效率。- 在 GPU 端,引入 Marlin 内核,专门优化量化矩阵计算,相比传统库加速 3.87 倍。
2025-03-04 15:14:45
3058
2
原创 使用启智社区免费昇腾910B部署LLM
前段时间想玩玩昇腾,发现华为云上租地GPU服务器,没有最新地cann8.0的镜像,自己折腾了许久,根本无法替换自己的镜像上去,此处省略一万字关于华为云的吐槽。启智社区提供了不少国产厂家的免费算力,接下来,话不多说,开整。
2024-12-23 11:50:15
3275
1
原创 VLLM 格式化LLM输出
vllm OpenAI Compatible Server 提供了格式化LLM输出的能力,默认的格式化解码后端应该是outlinesguided_json: 按照给定的json schema输出guided_choice: 从给定的选项里面选一个guided_regex: 按照给定的正则表达式输出guided_grammar: 按照给定的 扩展巴科斯范式(EBNF)格式 的上下文无关语法输出(我也不懂)下面我们直接看看如何使用这四个参数,控制LLM的输出messages=[],
2024-11-27 18:12:05
2909
原创 LLM之Agent落地篇
LLM之Agent初探LLM之Agent再探前面两篇文章主要是介绍了如何用LLM做个Agent的Demo,离实际的落地,还差了一大截,这篇文章就来讲讲Agent该如何落地。以下几个模块,是Agent在企业产品落地中必然会碰到的问题以上三个模块,仅仅提供一种思路,各位有更好的想法,可以在评论区留言讨论。暂时写到这儿了,有点流水账的感觉,很久没写了。
2024-08-08 17:47:32
1043
原创 Text2SQL之Vanna优化
前阵子写了篇Text2SQL的简单介绍,发现其也是RAG只会,写下了Text2SQL之不装了,我也是RAG最近也一直在做Text2SQL的优化,于是把自己的一些心得,总结于这篇文章。提升RAG的效果,能一定程度上提升Text2SQL的效果,剩下的,就看LLM的能力了。
2024-06-17 21:24:04
2700
2
原创 Text2SQL之不装了,我也是RAG
这是很典型的Text2SQL的应用场景了,为了实现这一需求,很容想到的是把创建的表和表的描述都放进prompt里,让LLM去根据表的结构生成SQL语句,再利用工具去执行SQL语句,拿到查询结果后,再丢给LLM,让LLM根据给定的内容回答问题。我这里没有对Query-SQL对中的SQL做检索,主要是考虑到用户的Query与SQL语句的相关性并不大,当然,获取数据这里修改成只计算Query的相关性时,你还需要对Query-SQL的向量化部分进行相应修改,应改成只对Query embedding。
2024-06-01 13:33:43
1606
2
原创 垂域LLM训练经验之谈
全参 SFTLora SFTLora 继续预训练Llama pro 预训练 + SFT预训练数据:由SFT数据的Query 与 Answer 的拼接SFT数据:由GPT4根据垂域文档抽取问答对+人工挑选而来,大概20000条,其中包括公司的介绍自我认知数据:大概200条,从公开的自我认知数据整理而来匠数科技大模型sft数据集显卡训练框架基座模型Qwen1.5-7B1、全参微调学东西最快2、lora要学习垂域知识,得多训几个epoch才行,或者对数据集进行过采样。
2024-06-01 12:23:49
597
原创 Llama3-chinese: 大幅改进Llama3 中文能力
是以Meta-Llama-3-8B为底座,使用DORALORA+的训练方法,在50w高质量中文多轮SFT数据 + 10w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型。
2024-04-22 13:26:05
8197
1
原创 Qwen-WisdomVast (千问-智瀚)
是以Qwen1.5-7B为底座,使用DORALORA+的训练方法,在100w高质量中文多轮SFT数据 + 20w英文多轮SFT数据 + 2000单轮自我认知数据训练而来的大模型,数学能力相比Qwen1.5-7B-Chat提升了5.16%,在HumanEval数据集上相比Qwen1.5-7B-Chat提升了12.8,在MBPP数据集上提升了11.6%,在BBH数据集上提升了12.44%,全部评测表现见下表。
2024-04-11 16:01:59
938
原创 deepspeed使用zero3 + offload报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam
说是系统cuda和torch的cuda版本不匹配,我们直接改成不检查cuda版本。3、修改完后再次在命令行执行。输出以下内容表示大功告成。
2024-03-26 16:46:22
12382
17
原创 Facebook mms ASR 实践
先来看看mms(Massively Multilingual Speech)的介绍吧大规模多语言语音(MMS)项目通过建立一个支持超过1100种语言的单一多语言语音识别模型(比以前多10倍),能够识别超过4000种语言的语言识别模型(比以前多40倍),支持超过1400种语言的预训练模型,以及超过1100种语言的文本到语音模型,将语音技术从大约100种语言扩展到超过1000种。我们的目标是使人们更容易以他们喜欢的语言访问信息和使用设备。ASR支持4000多种语言,确实变态哈。
2024-03-03 18:36:17
1006
原创 Fastwhisper + Pyannote 实现 ASR + 说话者识别
最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且whisper很变态,粤语效果也还不错,因此,如果实际业务中需要涉及到不同的语言,还是更推荐whisper多一点faster-whisper是使用CTranslate2对OpenAI的Whisper模型的重新实现,CTranslate2是一个用于Transformer模型的快速推理引擎。
2024-03-03 18:08:22
14552
14
原创 LLM之Agent再探
LLM之Agent初探1、当业务中有大量的tool时,比如有上千个,这些tool的描述加起来,总长度已经大大超过了LLM的最大输入长度,即使能接受这么长的token,从attention机制来看,效果也好不到哪里去。2、在LLM完成指令时,这几千个tool也不是都会被用上,那些没被用上的tool,且没被使用的tool占了绝大部分,大量的没被使用的tool占着大部分输入的token,造成资源的浪费,且推理性能也会有所下降。基于以上两点考虑,尽量将与实际指令相关的tool加载进agent。
2024-01-05 16:03:03
1226
原创 LLM之Agent初探
1、tool description 非常重要,没有写好description,agent无法理解在什么情况下应该调用该tool2、输入参数的 description 非常重要,想要LLM生成给定格式的输入参数,可以给一些few shot样例3、agent本质还是prompt工程,极大程度上依赖于LLM的参数量。小模型无法理解prompt,无法生成给定格式的输入参数,导致tool函数不能被正常调用。
2024-01-02 17:47:20
2081
pycharm代码没有提示
2022-12-13
关于蓝桥杯切面条的问题
2022-06-05
怎么从英文文本中提取出代码呢?求大佬解答
2021-05-31
怎么才能提高OCR的识别准确率
2021-06-19
有没有什么办法可以识别文字的方向,将其转正
2021-06-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅