从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

标题取自 LLamaIndex,这个内容最早提出于今年 2 月份 LlamaIndex 官方博客。从 22 年 chatGpt 爆火,23 年大模型尝鲜,到 24 年真正用 AI 落地业务场景,业界普遍都发现了从 MVP 到 PMF 不是那么容易的,具体的原因有非常多,在 RAG 场景下,最主要的表现是企业的数据 “垃圾进,垃圾出”,如何利用好企业数据是提升 RAG 效果的关键

看一下各个公司都是怎么做的

1. 合合信息

官方网站:https://www.textin.com/

一周快速出 Demo,半年产品不好用

RAG 范式从直观上理解起来落地是比较容易的,通过自然语言的语意匹配度找到相关的内容,再让模型进行回答,可是在实际落地过程中发现效果比预期差很多,总结起来会有以下一些问题

1.1 LLM RAG 产品如何快速达到可用、好用,开始增长?

如何解决 RAG 落地过程中遇到问题,提升 RAG 的整体效果,达到线上生产可用的目标,首先落地的关键点在于

再回归本质,影响 RAG 落地效果的最本质问题在于

1.2 提升 RAG 效果核心的优化方向:高质量文档解析 + 高质量检索

  • RAG 优化目标一: 快速、稳定、精准解析文档

原始的文档是各种各样的格式,各种各样的模态,如何快速、精确解析出高质量的内容对提升最终检索效果非常重要

  • RAG 优化目标二: 高精度、高效率向量检索

从海量的内容中提取出最相关的内容,对提升 LLM 输出效果准确率、相关性非常重要

  • TextIn 通用文本解析技术 + Acge 向量化模型

合合信息自研了 TextIn 通用文本解析技术,对丰富的文档格式和内容能快速,精准解析为 MD 格式,另外自研的 acge_text_embedding 向量化模型在检索准确率,精度等方面表现也非常突出

  • TextIn 技术的一些介绍和效果展示 (示例,详见附录 PPT)








  • acge_text_embedding 向量化模型的效果展示

  • 线上产品效果展示

  • 总结

2.infiniflow(英飞流)

官网:https://infiniflow.org/
infiniflow 自研了 AI-Native Database Infinity,在 RAG 检索方面表现非常突出

  • 下一代 RAG 引擎



同样对于 RAG 效果的提升,英飞流的核心研究方向也是高质量的内容解析 + 高质量的检索

  • 内容解析

  • 效果展示

  • 表格识别模型

  • 文档识别模型

  • 多模态识别

这里演讲人描述了和月之暗面创始人关于多模态识别的讨论,在大模型厂商看来,目前英飞流做的内容识别的工作都是雕花,因为大模型的上下文会越来越长,但演讲人还是更坚定于解决当前内容识别效果提升的问题,这里没有对错,只是看什么方案更适合

  • 混合检索

英飞流提供的 AI Native 数据库是个亮点,由于当前向量化检索的一些限制 (数据量、延迟、精度等),各种数据库在混合检索方面支持的效果参差不齐,英飞流致力于提供高性能、高精度、支持海量数据、支持混合检索的 AI

  • Native 数据库

Infinity 支持稠密向量、稀疏向量、张量、全文检索、结构化检索等丰富检索方式,了解 cross-encoder 的同学应该知道,cross-encoder 在检索效果方面比双编码器要好很多,但随着数据量提升,延迟不断升高,通常是不能接受的。随着 colbert 延迟交互的提出,目前业界针对检索效果和检索性能方面有了更让人惊喜的方案,但 colbert 也有一些工程问题,比如上下文限制,无法端到端使用等,Infinity 数据库支持 Tensor 数据类型,原生支持了 colbert 端到端方案,保障效果的前提下并解决海量数据检索延迟的问题,还是非常惊喜的


性能方面的表现非常突出

Intinity 在检索效率和效果上做到了兼顾

  • 延迟交互是 RAG 的未来

2.1高级 RAG

另外一个分享的主体是在复杂查询下如何提升检索效果

  • Agentic RAG

这里通常的思路都是进行问题预处理,人机协同反馈调优,没什么大的差异

  • 知识图谱

知识图谱是一个很优秀的技术,对检索结果效果优化是非常好的补充

小结

3.LlamaIndex

博客:https://www.llamaindex.ai/blog
llamaIndex 提到的优化方向和上边提到方向是一致的,这说明在企业落地 RAG 项目中,重点应该关注的是内容的解析效果和内容检索的效果

关于 llamaIndex 的分享内容这里不详细罗列,感兴趣可以看下附录的 PPT,这里主要看下 llamaIndex 做了哪些工作

3.1 LlamaParse

LlamaIndex 提供了 LlamaParse 可以解析复杂的多格式、多模态的文档,并以 AI Friendly(MD) 的格式输出

这里可以简单说 AI Friendly,其实业界提出 MD 格式是对 AI Friendly 的格式,在我们日常和业务合作过程中,也发现了 MD 的效果是最好的

另外,chunk 一般建议最好一个 chunk 是一篇文档,保障最完整的语意,这给了我们一个组织文档的经验建议

3.2 LlamaExtract

LlamaExtract 在 llamaIndex 分享的 ppt 没有提及,但在官方博客中提了,主要是以结构化的方式提取出文档的信息,有点类似图谱,是对文档检索内容的一个非常好的补充,感兴趣可以看下官方博客

原创作者: ting1 转载于: https://www.cnblogs.com/ting1/p/18407860
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
# 智慧旅游解决方案摘要 智慧旅游解决方案旨在通过新一代信息网络技术和装备,实现旅游服务、管理、营销和体验的智能化。该方案响应国家政策背景,如国家旅游局和工业信息化部的指导意见,以及国家发改委的发展规划,强调数字化、网络化、智能化在旅游业的应用,推动5G和移动互联网技术在旅游领域的创新应用。 方案的建设目标围绕“一个中心、四个方面、五大平台”展开,即以智慧旅游数据中心为核心,面向服务、管理、商务和营销构建智慧景区管理平台、智慧旅游服务平台、智慧旅游商务平台和智慧旅游营销平台。这五大平台将整合全域旅游资源,提升旅游设施,拓展旅游空间,融合旅游产业链,提升旅游服务,定制旅游产品,推进旅游改革。 建设内容涵盖了整体架构的构建,包括智慧服务、智慧管理、电子商务和智慧营销等方面。通过云计算、人工智能、大数据、物联网、5G等技术,实现“云-管-端”服务能力,打造集时间、空间、层次为一体的体验平台。此外,还包括智慧景区管理平台的多个子系统,如视频监控、应急指挥调度、流量监测、舆情监督、线路SOS一键呼救、GIS人车调度、停车场管理、语音广播、环境监测管理、多媒体发布、电子巡更以及指挥调度大屏建设等。 智慧旅游服务平台则包括自助票务系统、人脸识别、扫码购票、景区门户网站、机游、WIFI覆盖系统、数字全景VR、AI机器人、智慧座椅、智慧厕所等,旨在提升游客体验,实现景区的智能化管理和服务。通过这些服务,游客可以享受到便捷的购票、入园、导览和信息服务,同时景区管理者能够更有效地监控和管理景区运营。 智慧旅游商务平台则侧重于旅行社团队申报、电子商城、综合票务系统、分销管理系统、大会员系统和景区聚合支付系统,为旅游企业提供全面的商务服务和营销支持。这些平台和系统帮助旅游企业拓宽分销渠道,实现财务管理和订单管理,同时为游客提供便捷的支付和会员服务。 最后,智慧营销平台通过综合票务系统、分销管理系统、大会员系统和景区聚合支付系统,为旅游行业提供精准的营销工具和策略。这些工具和策略有助于整合旅游资源,拓宽销售渠道,提升游客体验,实现旅游业务的数字化和智能化。 智慧旅游解决方案通过这些综合性的技术和平台,不仅提升了游客的旅游体验,还为旅游行业的可持续发展提供了强有力的技术支持和数据驱动的决策依据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值