RAG
文章平均质量分 77
深度学习机器
前大厂算法工程师,现小厂全栈开发。写写代码,记录开发之路。
公众号:深度学习机器
个人网站:https://dlmachine.top
Github: https://github.com/zishengwu
展开
-
Chunkr: 在线PDF文档解析与OCR工具
这部分属于(pdf-document-layout-analysis)的内容,可以移步查看具体模型的介绍和训练过程。1.1 机器学习模型基于LIGHTGBM算法,并且只需要使用CPU资源,因此对硬件要求不高,速度快,但是只能处理文字类型的PDF。1.2 VGT模型能处理图片PDF,同时把版面内容识别为11种类型如果对表格、图片、手写内容的识别精度有要求,则需要使用该模型。原创 2024-10-21 09:00:00 · 523 阅读 · 0 评论 -
一文梳理RAG(检索增强生成)的现状与挑战
大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。原创 2024-09-07 21:30:00 · 1454 阅读 · 0 评论 -
大模型RAG应用开发之PDF解析工具对比
非扫描件无OCR要求直接使用即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU。原创 2024-08-28 12:15:00 · 491 阅读 · 0 评论 -
Magic-PDF:端到端PDF文档解析神器 构建高质量RAG必备!
比较准确。从上面的图可以看出,无论是可编辑的PDF还是扫描版的PDF,都能非常好的区分出版面中不同类型的部分,而且最终的结果是以Markdown的格式保存的,可以很容易把不同章节、不同自然段按需进行切分。原创 2024-08-01 13:15:00 · 774 阅读 · 0 评论 -
RAG文档解析利器:Deepdoc
Deepdoc是RAG框架RAGFLOW中使用的文档解析工具。原创 2024-07-30 14:00:00 · 1249 阅读 · 0 评论 -
DB-GPT:LLM应用的集大成者
等,如本项目中提到的。原创 2024-07-22 21:21:00 · 538 阅读 · 0 评论 -
基于Sentence Transformer微调向量模型
sentence transformer库升级到了V3,其中对模型训练部分做了优化,使得模型训练和微调更加简单了原创 2024-07-08 12:45:00 · 1158 阅读 · 0 评论 -
热门开源Text2SQL框架
Chat2DB项目地址:https://github.com/chat2db/Chat2DB简介:Chat2DB是一个通用的SQL客户端和数据分析工具,能够辅助生成SQL,同时支持对话式的数据分析功能,提供了网页、客户端2种使用方式,它支持几乎所有流行的数据库,并且chat2DB还开源了7B的SQL模型。特性:SQL生成、智能报告、数据探索。架构: SQL Chat项目地址:https://github.com/sqlchat/sqlchat简介:SQL Chat 是一个基于聊天原创 2024-06-27 12:45:00 · 494 阅读 · 0 评论
分享