- 博客(43)
- 收藏
- 关注
原创 一文梳理RAG(检索增强生成)的现状与挑战
大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
2024-09-07 21:30:00 1395
原创 大模型RAG应用开发之PDF解析工具对比
非扫描件无OCR要求直接使用即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU。
2024-08-28 12:15:00 421
原创 Magic-PDF:端到端PDF文档解析神器 构建高质量RAG必备!
比较准确。从上面的图可以看出,无论是可编辑的PDF还是扫描版的PDF,都能非常好的区分出版面中不同类型的部分,而且最终的结果是以Markdown的格式保存的,可以很容易把不同章节、不同自然段按需进行切分。
2024-08-01 13:15:00 581
原创 基于Sentence Transformer微调向量模型
sentence transformer库升级到了V3,其中对模型训练部分做了优化,使得模型训练和微调更加简单了
2024-07-08 12:45:00 1108
原创 热门开源Text2SQL框架
Chat2DB项目地址:https://github.com/chat2db/Chat2DB简介:Chat2DB是一个通用的SQL客户端和数据分析工具,能够辅助生成SQL,同时支持对话式的数据分析功能,提供了网页、客户端2种使用方式,它支持几乎所有流行的数据库,并且chat2DB还开源了7B的SQL模型。特性:SQL生成、智能报告、数据探索。架构: SQL Chat项目地址:https://github.com/sqlchat/sqlchat简介:SQL Chat 是一个基于聊天
2024-06-27 12:45:00 449
原创 记使用pdf.js过程遇到的坑
最近项目中需要用到js库来渲染pdf文件,调研后发现无论是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基础上做了些许精简,反而功能还不如原始的pdf.js来得全面。但是原始的库几乎没有像样的代码示例,而能搜索到的大多数代码不少都是十几年前的了,在这个过程中踩了不少坑,做个记录,希望对看到的人有所帮助。
2024-05-16 13:00:00 955
原创 【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度
虽然目前二阶段方法用来提升RAG的性能表现越来越受到关注,但是具体来看,其中所含的技术都是早就有的内容。Cross-Encoder这种架构在当时显得比较鸡肋,只能用来比较句子的相似度,甚至无法输出向量,在大部分自然语言处理场景中都不受待见,谁能想到在如今又焕发生机了呢?
2024-04-26 13:15:00 807
原创 【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取
openparse这个库算是目前开源社区中比较优秀的文档分割处理库了,功能虽然全面,还是还有不少可以优化的地方,后续也会支持其他向量化模型,并且可以跟LlamaindexLangchain等框架无缝衔接,应该值得持续关注。
2024-04-19 12:30:00 2152
原创 向量数据库之Lancedb学习记录
Lancedb是一个用于人工智能的开源矢量数据库,旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的,并构建在Lance之上,专为高性能 ML 工作负载和快速随机访问而设计。
2024-04-15 19:25:39 2858
原创 向量数据库Chroma学习记录
Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。
2024-04-13 18:00:00 1482
原创 大白话扩散模型(无公式版)
虽然原始论文涉及到的知识包括随机分布,马尔科夫链等,而且推导过程极其复杂,但本文不会深入去推导相关的公式,而是把重心放在思考这个过程以及对其中发现的一些问题进行探讨。,因为一开始图片质量很高,加很小的噪声就发生很大的变化,而越后面的图片含有噪声越多,失真越严重,必须加更大的噪声才能引起较大变化。如果玩过文生图的话就能发现,选择了一定的采样步数后,前几步图片变化非常大,从模糊的噪声逐渐出现轮廓,后面几步基本不变,只是一些细节发生了变化。,然后我们用来进行训练一个模型,拟合训练数据的分布之后,就可以预测出。
2024-03-24 13:23:39 846
原创 零基础小白也行,只用一行命令在自己的电脑跑大模型
目前该项目更新非常快,从路线图看后期还会支持更多模型和功能。相比于研究更强大的模型,减少技术的使用门槛对于普通人来说,显得更有实际意义。
2024-03-12 18:00:00 1910
原创 llm构建数据标注助手
在LLM出现之前,传统的深度学习模型(包括CV和NLP)就已经需要大量的数据进行训练和微调。没有足够的数据,或者数据需要进行二次加工(比如标签标注),这些问题都成为限制深度学习模型泛化的关键。对于第一个问题,一般就是从网络上爬虫或者花大价钱从数据供应商购买数据;对于第二种情况,一般是找外包进行标注,这在业界非常普遍。
2024-03-10 09:52:29 1129
原创 Chat2table,简易表格分析助手
之前用智谱AI的Chatglm3-6b模型写过一个简单的论文阅读助手,可用来辅助论文阅读等。而像表格,如Excel、CSV文件等内容的分析,也是不可忽略的需要,因此本文同样使用Chatglm3-6b来搭建一个表格分析助手,用于快速分析表格的内容,提取有效的信息。ChatGLM3 采用了全新的对话格式,除最基本的对话外,还支持工具调用和代码执行。简单来说,代码执行属于工具调用的子类,只是提示词不一样,而这两种功能是通过修改微调阶段的提示词来实现的。
2024-02-29 12:00:00 876
原创 8k中英双语文本嵌入模型效果初探
向量模型用于生成向量表示,被广泛应用于检索、分类、聚类或语义匹配等传统的自然语言处理任务。到了大模型时代,由于上下文长度的限制,需要压缩、存储和查询大量的信息,这就需要用到向量模型对输入的文本进行向量化表示,然后再喂给大模型,以得到期望的输出。,例如处理数十页的报告综述等。
2024-02-25 10:10:18 453
原创 零样本从文本直接生成视频:Text2video-zero的试用和启发
前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。
2024-01-13 16:19:01 1275
原创 基于Gradio实现的AI扩图(Outpainting)
Outpainting(图像外部填充)是一种图像处理技术,与Inpainting(图像内部填充)相反,可以根据现有图像的内容、风格和上下文,合成与原始图像相协调的新内容,从而扩展图像的视觉范围。通俗地说,Outpainting也属于图像编辑,只是把Mask区域改成往外扩展而已。
2024-01-02 23:11:15 1924 1
原创 Stable Diffusion中的图像修改尺寸和编辑工具实现
在图生图中,使用Stablediffusion的pipeline来构建Webui应用,如果直接把参数传给pipeline是无效的。__call__参数中虽然有单独的weight和height这两个参数,但最终图像尺寸实际上是由传入图片的尺寸决定的,因此需要定义函数来做原始图片的尺寸变换,达到用参数来控制输出图像尺寸的目的,这可以通过resize调整图片尺寸大小来实现。上传一张初始图片图片宽度和高度按照比例调整,缩放到1.2倍,高度和高度同步变成1232。
2023-12-23 12:30:00 1142
原创 Fastapi的服务端后台任务简介
在 fastapi 中,可以使用后台任务(Background Tasks)来异步执行一些耗时的操作,而无需等待其完成。后台任务非常适用于需要进行一些异步处理的场景,例如发送电子邮件、处理图像、推送通知等。
2023-12-22 16:17:16 1007
原创 几行代码实现可视化的文生图采样过程
Huggingface的实现了端到端的文生图功能,用户输入文字,即可得到最后的图片。但是在某些场景下,如果需要获取中间过程的图片,用于优化长时间等待过程的用户体验,就只能通过修改源码进行实现了。
2023-12-21 12:00:00 459
原创 进程与线程,并发与并行,异步与同步等区别与联系
进程属于操作系统的概念,操作系统中一个正在运行的程序就是一个进程,这个程序除了会用到CPU和内存之外,可能还会用到网络、磁盘等设备,因此进程就是操作系统对一个程序管理的抽象集合。线程属于进程的一个子集,是程序执行的最小单元,也即程序执行的指令。进程是操作系统资源分配的基本单位,线程是CPU调度的基本单位。因此。
2023-12-16 11:10:07 369
原创 FastAPI接口请求带来的一系列疑问与收获
我用的接口是用Ray serve进行部署的,Ray是一个分布式的计算框架,包含数据、模型、训练、微调和部署整套流程的服务,这里可以简单理解为该模块是在Fast Api的基础上做了些封装和完善。我定义的接口是一个post的接口,部署起来后,返回的状态码一直显示错误,一直没发现存在什么问题,后面经过多方搜寻,发现错误的原因是传递的参数中存在无法识别的参数。经过查询后,原来是因为post接口的参数不能随意起,必须以json的格式传送
2023-12-07 23:23:53 1130
原创 无需langchian,5分钟搭建专属论文阅读助手
langchain是一个非常热门的大模型应用开发框架,可以帮助我们快速开发基于大模型的下层应用。本文不打算使用langchain开发,而是用少量代码实现论文阅读助手这个功能。
2023-11-30 23:12:35 1008
原创 Stable Diffusion中的插件功能是怎么实现的
通过一个翻译插件项目,我了解到怎么在原始的的gradio项目中添加额外的插件功能,而无需进行太多改动。而且这些插件功能通过js可以实现各种额外的功能,大大弥补了gradio的弱点。
2023-11-21 23:31:11 149
原创 几条命令查询ip地址
通过搜索引擎的到如下结论:1、公共IP地址外部(全球)覆盖、私有ip地址内部(本地)覆盖面。2、公共IP地址用于在您的专用网络之外通过Internet进行通信;私有ip地址用于在您的私人网络内与您家中或办公室中的其他设备进行通信。3、公共ip地址由您的互联网服务提供商分配和控制;私有ip地址分配给专用网络中的特定设备。
2023-07-20 17:03:02 936
原创 pytest用法
最近在做一个机器学习工具包,需要对其中完成的部分功能进行测试,在jupyter-notebook环境测试单个函数功能没问题,但是没有对整个模块进行测试,无法联调,说不定有其他异常没发现,因此尝试用python中的pytest模块进行测试。
2023-07-08 11:38:39 73
原创 通俗易懂的注意力机制attention
简单来说,注意力通常对不同的item感兴趣程度、注意力分布不同,考虑对不同的item施加不同的权重,即求当前query关于不同key下的注意力分布及当前query的注意力分数。某些特征就会主导某一次的预测,就好像模型对某些特征更加专注。如果我们说加权求和就很容易理解,但是说成注意力机制,就感觉高大上了许多,也许这就是论文吧。。
2023-04-02 11:32:20 998
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人