u013250861
这个作者很懒,什么都没留下…
展开
-
基于 Qwen2.5-VL 的多模态检索增强生成(RAG)
今天,使用该模型,我们将对 MIG 29(一种战斗机)飞行手册进行多模态 RAG,该手册包含复杂的图形、图表等内容。我们在 RAG 速成课程的第 9 部分对 ColPali 进行了完整的架构拆解,并通过二值量化对其进行了优化。这里展示了一部分 streamlit 内容,但构建完成后,我们得到了这个清晰整洁的界面。我们已经实现了一个由 Qwen2.5-VL 驱动的 100%本地多模态 RAG。在这个例子中,它通过检索正确的页面并理解复杂的可视化,给出了正确的回答👇。原创 2025-05-18 19:27:58 · 47 阅读 · 0 评论 -
多轮带RAG的SFT数据构造挑战
只有在精心挑选、合理标注、动态迭代的前提下,多轮 RAG 模型才能有效学习到如何在复杂对话中准确检索外部知识、整合上下文信息并生成高度可靠、符合用户需求的回答,从而在实战中真正发挥其强大潜能。在组织多轮带 RAG 的数据时,建议将对话、检索和回答三部分以统一结构显式地展现出来,方便后续进行高效筛选与 Fine-tuning。这种结构不仅让数据更具可读性,还能够让模型在 Fine-tuning 时“看到”清晰的输入输出映射关系:(对话上下文 + 检索到的文档) → 回答。原创 2025-03-03 19:22:20 · 88 阅读 · 0 评论 -
大模型+检索增强(RAG、Atlas 和 REPLUG)
检索增强的优势可解释性:大模型的黑箱属性,使得研究者很难以利用大模型对模型运行机理进行分析,而检索增强模型可以直接提取其检索到的文档,从而通过分析检索器所检索出的文章,可以获得对 Atlas 工作更好的理解。原创 2023-11-10 01:10:30 · 512 阅读 · 0 评论 -
大模型应用中大部分人真正需要去关心的核心——Embedding
我们现在一说到大模型,往往说的就是ChatGPT、Llama,或者国产的ChatGLM、文心一言等等。但是,那些大模型一般只属于大厂,对于大部分人来说,我们更多的角色是大模型的使用者,或者是基于大模型来开发应用。大模型主要应用:这部分目前也是大模型最被人所知的应用,但chat功能我们已经有ChatGPT、Claude、文心一言、通义千问等一众产品可以用,对于大部分人来说,我们是消费者;原创 2023-11-09 23:41:44 · 1273 阅读 · 0 评论 -
大模型应用一:RAG
LLM这一波,催生的技术真的很多,每一个环节,要真正做好,符合企业应用,都可以让我们研究好长一段时间,并需要不断去实践,才能打磨出精品。嗯,大模型这一波,我已经感觉到变化的发生了——了解大模型和不了解大模型的人,在AI的业务上的理解上,有某些角度来看,他们的区别真的就现代人类和史前人类一样巨大。于是,RAG被越来越多提到,包括开源的ChatPDF,也是RAG的一个经典应用。RAG最初是为了解决LLM的各类问题的(后面会提到)产生的,但后面大家发现在现阶段的很多企业痛点上,使用RAG好像是更好的解决方案。原创 2023-11-09 23:09:26 · 1213 阅读 · 0 评论 -
从LangChain+LLM的本地知识库问答到LLM与知识图谱、数据库的结合
过去半年,随着ChatGPT的火爆,直接带火了整个LLM这个方向,然LLM毕竟更多是基于过去的经验数据预训练而来,没法获取最新的知识,以及各企业私有的知识为了获取最新的知识,ChatGPT plus版集成了bing搜索的功能,有的模型则会调用一个定位于 “链接各种AI模型、工具的langchain”的bing功能为了处理企业私有的知识,要么基于开源模型微调,要么也可以通过langchain作为一种外挂的内部知识库 (类似存在本地的数据库一样)原创 2023-08-27 22:36:08 · 1702 阅读 · 0 评论 -
中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding
每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,从数据集中每个Label选择相同的条数,数据集中Label=5有97条,那其他Label=0、1、2、3、4我们也分别选择97条;从两张图比较直观能看到,text2vec-base-chinese跟Label的吻合度可以,在余弦相似性的区分度上更剩一筹。为了让点可以散开,如果Label是0就把x平均分布到0~1之间,是1就把x平均分布到1~2之间,以此类推;两个model分别做了个效果图,原创 2023-08-21 17:01:10 · 1370 阅读 · 0 评论 -
GPT-4+Knowledge Graph:自动构建中医药知识图谱
【代码】GPT-4+Knowledge Graph:自动构建中医药知识图谱。原创 2023-08-19 22:33:31 · 634 阅读 · 0 评论 -
chatGPT+Neo4j:实现基于知识图谱的精准知识问答【①利用chatGPT生成查询语句;②利用生成的查询语句查询neo4j数据库;③将查询neo4j的结果作为chatGPT的输入prompt】
prompt:这是我neo4j知识图谱结构,根据问题,写一个cypher查询语句,我希望返回的是完整的节点,而不只是节点的名字。图谱结构:(杜仲)-[杜仲_又名]-(又名);(杜仲)-[杜仲_功用]-(功用);(杜仲)-[杜仲_地域]-(地域)。问题:杜仲的又名叫什么?这个查询会匹配杜仲节点和与其关联的又名节点,然后返回这两个节点的完整信息,包括属性和关系。请确保您的数据库中已经存在这些节点和关系,然后将查询语句应用于您的Neo4j数据库。原创 2023-08-19 22:05:31 · 1121 阅读 · 0 评论 -
基于LangChain的优秀项目资源库
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。本文主要内容是一个LangChain资源库,里面罗列了大大小小很多个基于LangChain框架的优秀项目,包括低代码、服务、代理、模板等工具类,还有像知识管理、原创 2023-07-20 00:19:24 · 732 阅读 · 0 评论