- 博客(941)
- 资源 (12)
- 收藏
- 关注
原创 个人分享及推荐
分享这里是我在平时阅读到的好书、好资料,我把他们都放在此处,也算是我自己的一个收藏夹。所有的这些都是我自己阅读完了,认为质量很不错,对成长有帮助的文章,希望他们也能给你带来成长
2020-01-11 20:15:07
467
原创 GraphRAG:知识图谱赋能的RAG技术革新与实践指南
系统阐述了GraphRAG技术的演进历程、核心架构与前沿实践。传统RAG存在关系理解缺失、多跳推理薄弱等局限,而GraphRAG通过知识图谱的语义网络结构实现突破性提升。文章详细解析了三阶段架构(知识图谱构建-图谱检索-增强生成),对比分析了Microsoft GraphRAG等四大前沿框架的技术特点,并建立了覆盖检索质量、生成效果与系统性能的评估体系。研究表明,GraphRAG在复杂查询场景下可使事实一致性提升8%-20%,特别适用于金融风控
2026-03-10 23:30:00
600
原创 RAG系统评估全指南:从三元组框架到实操落地
摘要: 检索增强生成(RAG)技术已成为企业级AI应用的核心方案,但其落地效果依赖科学评估。本文提出基于RAG三元组的评估框架,从上下文相关性(检索质量)、忠实度(生成可靠性)、答案相关性(用户价值)三个维度构建全链路评估体系。通过分层评估(检索评估聚焦精确率/召回率等指标,响应评估量化端到端表现)精准定位问题根源,如检索噪声或生成幻觉。该框架为开发者提供标准化评估方法,确保RAG系统在金融、医疗等高要求场景中的准确性与实用性。
2026-03-06 23:30:00
438
原创 LLM 格式化生成:连接自然语言与程序化逻辑的关键桥梁
摘要: 大语言模型(LLM)的非结构化文本输出在实际业务中往往需要转换为结构化数据(如JSON、XML)以满足下游需求。本文系统解析了格式化生成的核心价值与实现方案,涵盖三大场景:RAG驱动的交互、自然语言转API调用和数据自动提取。重点介绍了LangChain的Output Parsers(如PydanticOutputParser)、LlamaIndex的Pydantic程序等框架化方案,以及轻量化的提示工程技巧(明确格式要求、JSON Schema约束等)。此外,深入探讨了Function Calli
2026-02-28 20:00:00
824
原创 构建生产级 RAG 系统:检索技术的三大进阶法宝
摘要:标准RAG流程中的向量检索存在相关性错位、信息噪声和低容错性三大痛点。生产级解决方案需引入"过滤-提纯-验证"工序,通过重排序、压缩和校正将准确率提升至90%以上。本文重点分析四种重排序技术:1)RRF算法实现无监督结果融合;2)RankLLM利用大模型语义理解能力排序;3)Cross-Encoder提供高精度但高成本的交互式重排;4)ColBERT通过延迟交互实现高效排序。不同技术各具优劣,需根据场景需求在精度、成本和效率间权衡,推荐构建"多检索器召回→粗排→精排&qu
2026-02-26 19:23:42
775
原创 RAG落地关键之搞定查询重构与智能路由,让检索更精准
RAG系统开发中,查询重构是关键环节,能有效提升回答准确率。本文提出四种核心技巧,重点介绍通过提示工程让LLM生成结构化检索指令的方法。针对视频检索场景,设计精准Prompt模板限定输出格式,将自然语言查询转化为JSON排序指令,并通过代码解析执行。这种方法相比传统文本改写更可靠,准确率接近100%。文章还提供了完整代码实现,包括视频数据加载、向量存储创建和指令生成执行流程,为开发者提供了实用解决方案。
2026-02-24 23:00:00
1618
原创 RAG 落地关键:Text2SQL 从原理到实战 —— 让非技术用户对话结构化数据
摘要: Text2SQL技术通过将自然语言查询自动转换为SQL语句,解决了企业数据查询的技术门槛问题,使非技术人员也能高效获取结构化数据。其核心挑战包括LLM的幻觉问题、数据库结构理解不足和用户输入模糊性。优化策略包括提供精确数据库模式、高质量示例学习、RAG增强上下文及错误修正机制。基于RAG的模块化Text2SQL框架(知识库、SQL生成器、代理协调器)可实现可调试的端到端解决方案,推动企业数据价值释放。
2026-02-14 09:59:11
721
原创 RAG 进阶:查询构建技术深度解析 —— 让 LLM 听懂复杂数据查询需求
本文探讨了基础RAG系统的局限性及查询构建技术的应用价值。传统向量检索仅支持语义匹配,难以处理包含过滤、排序等复杂条件的查询。查询构建技术通过LLM将自然语言转换为结构化请求,实现语义搜索与精准过滤的无缝融合。文章重点介绍了文本到元数据过滤器的实现方案,包括元数据蓝图定义、查询拆解和执行流程,并以B站视频检索为例展示了自查询检索器的实战应用。该技术有效解决了数据利用不充分和查询能力单一的问题,显著扩展了RAG系统的应用边界。
2026-02-13 18:48:38
905
原创 混合检索:融合稀疏与密集向量的下一代搜索技术
混合检索技术结合了关键词检索的精确性和向量检索的语义理解能力,解决了单一检索方式的局限性。本文解析了稀疏向量(关键词检索)与密集向量(语义检索)的核心差异,介绍了两种主流融合策略(RRF和加权线性组合),并通过Milvus实战演示了混合检索系统的构建过程。混合检索显著提升了召回率和鲁棒性,适用于电商搜索、智能问答等多样化场景,尽管存在资源消耗增加和参数调优复杂的挑战,但其综合优势使其成为信息检索领域的重要发展方向。
2026-02-12 18:35:34
1024
原创 RAG 系统性能跃迁:LlamaIndex 索引优化实战指南
摘要:本文探讨了检索增强生成(RAG)系统中的索引优化策略。通过LlamaIndex工具,提出两种核心方法:1)句子窗口检索技术,在保证检索精度的同时扩展上下文,解决信息碎片化问题;2)结构化索引方案,提升大规模知识库的检索效率。实验表明,相比传统方法,优化后的索引策略能显著提高回答的准确性和完整性。文章包含具体代码实现和技术细节,为开发者提供生产级解决方案。
2026-02-07 16:29:17
672
原创 Milvus介绍及多模态检索实践:从部署到实战全解析
本文介绍了Milvus向量数据库的核心特性和部署方法。作为专为大规模向量搜索设计的开源数据库,Milvus具备云原生架构、海量数据处理和多场景适配优势。文章详细讲解了单机版部署步骤,包括环境准备、服务启动和验证方法,并解析了Collection、Index等核心组件的工作原理。通过图文多模态检索案例,展示了Milvus在AI应用中的实际价值,帮助开发者快速掌握这一生产级向量数据库工具。
2026-02-07 11:03:45
643
原创 技术团队OKR季度/年度复盘全指南:从流程落地到效能提升
技术团队OKR复盘是实现战略落地与效能提升的关键环节。本文系统阐述了技术团队OKR复盘的核心价值与全流程实操方法,包括个人、部门、管理层和公司层面的四层递进复盘机制,强调数据驱动、聚焦技术价值与业务价值的统一。文章还提出复盘需注意技术债务管理、资源配置优化等专属事项,并推荐了相关工具。通过规范化的复盘流程,技术团队可实现经验沉淀、协作优化和持续改进,最终形成复盘-改进-提升的良性循环。
2026-01-08 18:14:01
1102
原创 2025:从 CV和KG到大模型落地,我的转身之年与平衡之道
回顾了从计算机视觉转向大模型、TTS等新赛道的技术转型历程。旧技能(OCR、知识图谱)成为新方向(RAG、多模态)的适配插件,实现了平滑过渡。通过70多篇技术博客记录成长,分享经验帮助同路人。面对行业波动,作者通过宏观经济分析调整学习重点,并建立理财规划应对不确定性。文章强调技能迁移的重要性,建议开发者在新领域寻找旧基础的延续性。博客既是成长记录,也是与同行交流的纽带,未来计划继续分享AI转型与生存指南。
2025-12-29 23:13:06
772
原创 向量数据库:AI时代的数据基石
在 RAG 系统中,嵌入模型将文本、图像等非结构化数据转换为高维向量,但当向量规模达到百万级时,如何快速找到最相关的向量成为瓶颈。毫秒级相似性搜索:通过 HNSW、IVF 等索引技术,在十亿级向量中实现毫秒级查询。多模态数据融合:支持文本、图像、音频等多类型向量存储,满足 ChatGPT-4o 等跨模态模型的需求。弹性扩展能力:分布式架构支持线性扩展,轻松应对数据量的指数级增长。向量数据库已从 AI 研究的 “小众工具” 发展为 RAG 系统的 “刚需组件”。
2025-12-10 09:08:53
701
原创 从CLIP到BGE-M3:多模态嵌入的演进与实践
多模态嵌入技术:打破AI的模态壁垒 多模态嵌入技术通过将文本、图像等不同模态数据映射到同一向量空间,实现了跨模态语义理解。OpenAI的CLIP模型采用双编码器架构和对比学习策略,开创性地实现了图文语义对齐。北京智源研究院的BGE-M3在此基础上进一步发展,通过网格嵌入和多语言支持,提升了复杂场景的处理能力。这些技术突破使AI系统能够理解"一只奔跑的狗"的文字描述与对应图片的语义关联,为跨模态检索、零样本识别等应用奠定了基础。代码示例展示了如何下载和使用Visual BGE模型进行多模态
2025-12-04 19:40:06
835
原创 向量嵌入:RAG系统背后的语义引擎
向量嵌入技术将高维语义信息压缩为低维向量,使相似概念在向量空间中聚集。作为RAG系统的核心,嵌入质量直接影响语义检索效果。从静态词嵌入到动态上下文嵌入,技术不断演进,解决了多义词等难题。现代嵌入模型基于Transformer架构,通过对比学习优化检索性能。选型需考虑MTEB排名、语言支持等维度,并结合业务测试。未来趋势包括多模态融合、知识图谱增强和轻量化部署。嵌入技术已成为NLP领域的关键支柱,其优化对提升RAG系统性能至关重要。
2025-11-29 12:55:56
1674
原创 李宏毅NLP-14-NLP任务
自然语言处理(NLP)任务主要分为文本生成和文本分类两大类。文本生成任务(如机器翻译、文本摘要)通过生成式模型创造新文本;文本分类任务(如情感分析、垃圾邮件识别)则通过分类模型为文本打标签。分类任务分为单类别和多类别两种。序列到序列(Seq2Seq)模型是处理文本转换任务的核心技术,包含编码器、解码器、注意力等机制。多文本输入处理可采用简单拼接或序列间注意力整合策略。NLP任务还可按输入序列数量和输出类型进行二维分类,涵盖情感分类、序列标注、问答等多种应用场景。词性标注等任务则属于序列标注的具体应用。
2025-11-16 20:58:30
1380
原创 RAG系统中的文本分块技术:从基础策略到智能分块的深度解析
文本分块是RAG(检索增强生成)系统的核心环节,直接影响知识检索的精度和效率。本文系统分析了文本分块的核心价值、经典策略和智能进阶技术。固定大小分块和递归字符分块是基础策略,能够适配模型上下文窗口限制;语义分块通过嵌入向量和语义距离实现上下文感知的动态切分;结构化文档分块则利用标题层级保留元数据。此外,Unstructured框架基于文档元素智能分块,LlamaIndex采用面向节点的解析方法。不同分块策略各具特点,需要根据文档类型和应用场景灵活选择,以优化检索性能和生成质量。
2025-11-14 22:45:00
758
原创 音画同步革命:IndexTTS2深度解析——B站开源的情感化+时长可控TTS新标杆
哔哩哔哩IndexTTS2开源项目突破传统TTS技术瓶颈,通过三大创新实现音画精准同步和情感自然表达:1)时间编码机制实现毫秒级时长控制,误差率低于0.07%;2)特征解耦架构支持音色与情感独立调控,情感相似度达0.887;3)三阶段训练范式提升生成稳定性。该系统提供双生成模式(精准控时/自然韵律)、零样本音色克隆(5秒参考音频即可)、跨语言支持等特性,并具备工业化部署能力。开发者可通过简单API或WebUI快速实现情感化语音合成,适用于影视配音、虚拟主播等场景。
2025-11-05 20:15:00
1816
原创 无分词器 TTS 新标杆:VoxCPM 全解析 —— 从原理到实战的高保真语音生成指南
VoxCPM创新性地采用无分词器端到端架构,突破传统TTS模型信息损失瓶颈,实现了高保真语音合成与克隆。该模型融合扩散自回归架构和MiniCPM-4语言模型骨干,支持连续语音信号生成与上下文感知表达。核心优势包括:仅需5秒音频即可完成零样本克隆(相似度达0.93)、实时因子低至0.17的流式合成,以及支持中英文混合、情感语调自适应等复杂场景。测试显示其性能超越同类开源模型,同时保持轻量化(0.5B参数)。开发者可通过简单API快速集成,但需注意克隆功能的法律合规要求。VoxCPM为语音生成领域提供了兼具高自
2025-11-04 22:30:00
1754
原创 Milvus 可视化管理利器:Attu 全面指南
Attu是Milvus向量数据库的官方图形化管理工具,通过可视化界面简化了数据库操作。它支持数据管理、向量操作、检索验证、权限控制和系统监控等核心功能,覆盖Milvus全生命周期管理。提供Docker、桌面应用和Kubernetes三种部署方式,支持快速验证和生产环境使用。Attu与Milvus版本强绑定,2.6.x及以上版本为专有许可证,而2.5.x及以下版本可二次开发。作为降低Milvus使用门槛的关键工具,Attu特别适合混合检索等复杂场景的开发与调试。
2025-11-04 20:00:00
1733
原创 DataFun:智能风控与业务安全
,最终目标是让智能体在风控领域的知识、判断、协作能力,达到 “拥有五年经验的人类风控专家” 水平,实现从 “模型智能” 到 “业务智能” 的落地。从。
2025-10-18 12:27:50
1153
原创 Sherpa 语音识别工具链安装指南(Linux CPU 版)
本文详细介绍了在Python 3.10环境下安装Sherpa语音处理工具集的完整流程。主要内容包括:系统环境配置(推荐Ubuntu/CentOS系统)、虚拟环境创建、核心组件(PyTorch 2.5.0、k2、kaldifeat等)的安装方法与版本匹配技巧,以及Sherpa-ONNX轻量推理引擎的部署。文章还提供了安装验证方法和TTS语音合成示例,帮助用户快速测试功能。整个安装过程强调版本兼容性,通过whl文件离线安装确保稳定性,适合需要语音识别和实时音频处理的开发者参考。
2025-10-17 20:25:17
1054
原创 RAG系统中的数据加载:从文档解析到Unstructured实战
数据加载是RAG系统的关键第一步,直接影响后续流程质量。本文对比了PyMuPDF4LLM、Unstructured等主流文档加载工具,重点解析Unstructured库的多格式支持与智能内容解析能力。通过代码示例演示了如何加载PDF文档并统计元素类型,比较了不同解析策略的适用场景。最后提供常见问题处理方案,强调数据质量对系统性能的决定性作用。
2025-09-11 09:05:37
956
原创 Git 别名:用简短命令大幅提升开发效率
摘要: Git别名通过简化高频复杂命令(如git st代替git status)显著提升开发效率。核心配置方法包括全局设置(git config --global alias.st status)和项目级设置,支持基础操作、日志优化(如彩色图表输出git lg)及Shell脚本嵌入。最佳实践建议采用2-3字母动词缩写(如cm表示commit),保持命名简洁一致。典型场景如日常提交(git cm "msg")、分支管理(git cb feature),可节省30%-50%操作时间。通过gi
2025-09-03 20:20:53
575
原创 Resemble Enhance:AI语音增强技术的革新之作
Resemble Enhance是由Resemble AI开发的AI语音增强工具,通过去噪和增强两阶段处理提升语音质量。核心功能包括消除背景噪音(街道声、音乐等)和修复模糊/卡顿音频,采用44.1kHz训练数据与自编码器+声码器架构。支持快速安装(pip install)或源码定制,提供Web演示和命令行批量处理(可调去噪强度等参数)。适用于会议录制、语音助手等场景,具备高精度去噪和带宽扩展优势。开发者可参考GitHub仓库进行模型训练或应用部署。
2025-09-02 22:30:00
1098
原创 李宏毅NLP-13-Vocoder
本文介绍了声码器(Vocoder)在语音合成中的关键作用及其技术演进。声码器负责将前端模型生成的声学特征(如频谱图)转换为可听波形,其发展经历了从传统Griffin-Lim算法到现代深度学习方法的跃迁。重点解析了WaveNet这一开创性神经声码器:采用因果卷积和膨胀卷积构建自回归模型,通过μ-law压缩解决音频高维难题,逐点生成高保真语音。文章还对比了幅度谱与相位谱的特性差异,并阐述了声码器作为通用波形生成模块的价值——可复用于TTS、语音转换等多场景,通过任务拆分实现语音细节的独立优化。
2025-08-31 18:40:56
1234
原创 李宏毅NLP-12-语音分类
本文介绍了说话人识别与验证的核心技术。说话人识别属于多分类问题,通过语音特征判断说话人身份;说话人验证则是二分类任务,通过比较两段语音的声纹相似度进行身份确认。重点阐述了说话人验证系统的评估指标EER(等错误率)及其在安全与体验场景中的权衡应用。此外还介绍了说话人分离技术及其会议记录等应用场景。最后详细讲解了基于嵌入的说话人验证三阶段框架:开发阶段训练通用特征模型,注册阶段存储说话人嵌入模板,评估阶段进行身份验证。这些技术广泛应用于金融安全、智能助手等领域。
2025-08-23 17:59:30
1025
原创 新手入门:用 LangChain+LlamaIndex 构建 RAG,通义千问 API 免费够用
本文介绍了如何利用阿里通义千问API结合LangChain和LlamaIndex框架搭建RAG系统,特别适合零基础开发者。主要内容包括:1)通过Conda创建虚拟环境;2)配置通义千问API密钥;3)使用LangChain实现完整RAG流程,包括文档加载、文本分块、向量索引构建、文档检索和答案生成;4)详细解析了代码实现和参数配置,并提供了运行验证方法。该方案具有成本低(免费API额度)、配置简单(无需复杂运维)的特点,能有效解决新手在RAG实践中遇到的两大难题。
2025-08-19 18:00:00
1703
原创 RAG 入门指南:从概念到最小系统搭建
RAG(检索增强生成)技术通过融合信息检索与文本生成,有效解决大语言模型的知识过时、幻觉输出等问题。其核心流程包括文档索引构建、相关信息检索和生成优化三个阶段,可根据不同场景需求选择初级、高级或模块化RAG方案。相比传统LLM,RAG具有知识实时更新、输出可溯源、成本效益更优等优势,适用于文档查询、专业咨询等多种场景。实践层面,开发者可利用LangChain、FAISS等工具链,通过数据准备、索引构建、检索优化和生成集成四个步骤快速搭建最小可行系统。该技术正成为提升LLM实用性的重要解决方案。
2025-08-18 19:32:08
1402
原创 使用 uv管理 Python 虚拟环境:比conda更快、更轻量的现代方案
uvuv是 Python 开发者的新宠,它以Rust 的性能优势和现代化设计,解决了传统工具的痛点。如果你专注于 Python 生态,追求速度和轻量化,uv是理想选择;而conda仍然是科学计算领域的全能选手。根据项目需求选择合适的工具,才能事半功倍!
2025-08-18 19:11:33
2134
原创 李宏毅NLP-11-语音合成
语音合成技术经历了从早期电子合成到现代神经网络的演进过程。1939年贝尔实验室的VODER首次用电子设备模拟人类语音,开创了语音合成先河。1960年代计算机辅助合成技术出现,随后拼接式合成方法通过拼接预录语音片段实现自然语音输出,但受限于数据依赖性。参数化合成(HMM/DNN)通过统计模型生成语音,提高了灵活性。2017年Deep Voice首次采用模块化神经设计,实现文本到语音的直接映射。
2025-08-17 18:05:59
1011
原创 Dify-17: 扩展模型提供方
本文介绍了在Dify平台扩展新模型提供方的完整流程。系统采用模块化架构,包含ModelInstance、ProviderManager等核心组件,支持多种AI模型类型。开发者需创建提供方实现文件,继承相应模型基类并实现必要接口(如大语言模型的invoke方法)。平台提供凭证加密、负载均衡和回调监控功能,支持系统配置和用户自定义配置。集成步骤包括定义凭证模式、实现认证逻辑、测试模型调用等关键功能,并最终注册到提供方工厂。Dify的安全机制确保凭证处理安全,同时支持高可用场景下的负载均衡。通过此扩展机制,开发者
2025-08-13 18:28:32
1272
原创 Dify-16: 开发环境配置
本指南详细介绍了Dify本地开发环境的搭建流程,包括API后端(Python/Flask)和Web前端(Next.js)的配置。系统要求安装Python 3.11+、Node.js v18.18+、Docker等必需软件,并推荐使用VS Code等开发工具。配置步骤涵盖中间件服务(Docker Compose)、API后端(UV依赖管理、数据库迁移)和Web前端(pnpm依赖管理)的设置,提供了完整的开发测试流程说明。环境变量部分详细解释了API和Web的关键配置参数,并提供了通过Docker一键部署完整栈
2025-08-07 21:56:55
1660
原创 Agent X MCP 把想法编译成现实
本文展示了一系列AI技术应用的视觉演示,主要涵盖三个方向:1)多模态GUI智能体,通过图形界面实现人机交互;2)协作型AI系统,展示多个智能体协同工作的场景;3)魔搭社区MCP(Model Collaboration Platform)及其与硬件结合的实践案例。这些演示呈现了AI在界面交互、协同计算和硬件集成方面的前沿探索,体现了人工智能技术向多模态、协作化和硬件落地的演进趋势。
2025-08-02 15:50:53
271
原创 李宏毅NLP-10-语音分离
摘要 本文系统介绍了语音分离技术,重点分析说话人分离任务。语音分离包含语音增强(降噪)和说话人分离(分离重叠语音)两个方向。说话人分离任务需从混合音频中分离出独立说话人信号,研究集中于单麦克风、双说话人场景,并需解决训练与测试说话人不同的泛化问题。文章详细阐述了评估指标(SNR、SI-SDR、PESQ、STOI)及其优缺点,特别是SI-SDR通过信号投影解决了SNR的幅度作弊问题。针对说话人分离的置换问题,介绍了基于掩码的方法,通过生成时频掩码矩阵从混合信号中分离目标语音。该技术可应用于会议记录、语音识别等
2025-08-02 14:01:26
1190
原创 Dify-15: 开发指南
Dify开源项目开发指南摘要:本文详细介绍了Dify开源AI开发平台的贡献指南,包含完整的开发环境配置流程和扩展开发方法。开发环境搭建需同时配置Python/Flask后端(3.11+版本)和Next.js前端(Node.js 18.18+),使用Docker部署中间件服务。系统采用微服务架构,包含API服务层、异步任务处理和向量数据库集成。指南提供了模型提供方扩展、插件开发和UI组件定制的方法,并涵盖国际化支持、测试框架(pytest/Jest)及生产环境部署说明。常见问题排查和开发命令参考帮助开发者快速
2025-07-30 20:15:48
984
原创 Dify-14: 工作流API端点
Dify工作流API文档摘要:本文详细介绍了Dify平台的工作流API接口,支持开发者通过编程方式执行、监控和管理工作流。主要包含执行端点(POST /workflows/run)和控制端点(如停止执行和获取详情),支持流式和阻塞两种响应模式。所有请求需通过API密钥进行身份验证,并支持文件处理(远程URL或本地上传)。文档还提供了错误代码说明和完整请求示例,帮助开发者实现与聊天应用集成及复杂工作流编排。特别强调需安全存储API密钥,避免客户端暴露。
2025-07-28 22:30:00
1850
原创 Dify-13: 文本生成API端点
本文档介绍了Dify平台提供的文本生成API功能,适用于翻译、摘要等非对话式AI应用场景。API支持单次请求处理,无需维护会话上下文。所有请求需通过API密钥进行身份验证,建议采用流式响应模式提升性能体验。 核心端点/completion-messages支持POST请求,接收包含query字段的inputs参数,可附加文件(如图片)。响应提供阻塞(完整返回)和流式(SSE分块)两种模式,包含token用量计费信息。 文档还包含文件上传、停止生成和消息反馈等辅助端点说明,并列出常见错误代码(如参数无效400
2025-07-22 23:00:00
1021
Stefano Mattoccia 的讲义 Stereo Vision: algorithms and applications
2016-09-14
智能时代 吴军 .mobi 电子书
2016-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅