深度学习机器
码龄9年
关注
提问 私信
  • 博客:49,100
    49,100
    总访问量
  • 43
    原创
  • 34,904
    排名
  • 354
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:前大厂算法工程师,现小厂全栈开发。写写代码,记录开发之路。 公众号:深度学习机器 个人网站:https://dlmachine.top Github: https://github.com/zishengwu

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-11-26
博客简介:

深度学习机器

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    533
    当月
    5
个人成就
  • 获得456次点赞
  • 内容获得8次评论
  • 获得517次收藏
  • 代码片获得576次分享
创作历程
  • 23篇
    2024年
  • 14篇
    2023年
  • 7篇
    2022年
成就勋章
TA的专栏
  • 优质项目
    13篇
  • RAG
    8篇
  • 大语言模型
    22篇
  • 计算机杂谈
    4篇
  • Debug
    1篇
  • 深度学习入门
    7篇
  • AIGC
    7篇
  • 数据库
    2篇
  • 论文拜读
    2篇
  • 算法落地
    2篇
  • 白话机器学习
    3篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Chunkr: 在线PDF文档解析与OCR工具

这部分属于(pdf-document-layout-analysis)的内容,可以移步查看具体模型的介绍和训练过程。1.1 机器学习模型基于LIGHTGBM算法,并且只需要使用CPU资源,因此对硬件要求不高,速度快,但是只能处理文字类型的PDF。1.2 VGT模型能处理图片PDF,同时把版面内容识别为11种类型如果对表格、图片、手写内容的识别精度有要求,则需要使用该模型。
原创
发布博客 2024.10.21 ·
523 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

一文梳理RAG(检索增强生成)的现状与挑战

大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
原创
发布博客 2024.09.07 ·
1455 阅读 ·
45 点赞 ·
0 评论 ·
23 收藏

大模型RAG应用开发之PDF解析工具对比

非扫描件无OCR要求直接使用即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU。
原创
发布博客 2024.08.28 ·
492 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

Magic-PDF:端到端PDF文档解析神器 构建高质量RAG必备!

比较准确。从上面的图可以看出,无论是可编辑的PDF还是扫描版的PDF,都能非常好的区分出版面中不同类型的部分,而且最终的结果是以Markdown的格式保存的,可以很容易把不同章节、不同自然段按需进行切分。
原创
发布博客 2024.08.01 ·
775 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

RAG文档解析利器:Deepdoc

Deepdoc是RAG框架RAGFLOW中使用的文档解析工具。
原创
发布博客 2024.07.30 ·
1249 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

DB-GPT:LLM应用的集大成者

等,如本项目中提到的。
原创
发布博客 2024.07.22 ·
538 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

基于Sentence Transformer微调向量模型

sentence transformer库升级到了V3,其中对模型训练部分做了优化,使得模型训练和微调更加简单了
原创
发布博客 2024.07.08 ·
1158 阅读 ·
17 点赞 ·
0 评论 ·
16 收藏

热门开源Text2SQL框架

Chat2DB项目地址:https://github.com/chat2db/Chat2DB简介:Chat2DB是一个通用的SQL客户端和数据分析工具,能够辅助生成SQL,同时支持对话式的数据分析功能,提供了网页、客户端2种使用方式,它支持几乎所有流行的数据库,并且chat2DB还开源了7B的SQL模型。特性:SQL生成、智能报告、数据探索。架构: SQL Chat项目地址:https://github.com/sqlchat/sqlchat简介:SQL Chat 是一个基于聊天
原创
发布博客 2024.06.27 ·
494 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

记使用pdf.js过程遇到的坑

最近项目中需要用到js库来渲染pdf文件,调研后发现无论是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基础上做了些许精简,反而功能还不如原始的pdf.js来得全面。但是原始的库几乎没有像样的代码示例,而能搜索到的大多数代码不少都是十几年前的了,在这个过程中踩了不少坑,做个记录,希望对看到的人有所帮助。
原创
发布博客 2024.05.16 ·
1042 阅读 ·
9 点赞 ·
0 评论 ·
4 收藏

开源RAG框架汇总

本文搜集了一些开源的基于LLM的RAG(Retrieval-Augmented Generation)框架
原创
发布博客 2024.05.11 ·
4339 阅读 ·
20 点赞 ·
0 评论 ·
44 收藏

【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度

虽然目前二阶段方法用来提升RAG的性能表现越来越受到关注,但是具体来看,其中所含的技术都是早就有的内容。Cross-Encoder这种架构在当时显得比较鸡肋,只能用来比较句子的相似度,甚至无法输出向量,在大部分自然语言处理场景中都不受待见,谁能想到在如今又焕发生机了呢?
原创
发布博客 2024.04.26 ·
876 阅读 ·
27 点赞 ·
0 评论 ·
23 收藏

【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取

openparse这个库算是目前开源社区中比较优秀的文档分割处理库了,功能虽然全面,还是还有不少可以优化的地方,后续也会支持其他向量化模型,并且可以跟LlamaindexLangchain等框架无缝衔接,应该值得持续关注。
原创
发布博客 2024.04.19 ·
2476 阅读 ·
29 点赞 ·
0 评论 ·
27 收藏

向量数据库之Lancedb学习记录

Lancedb是一个用于人工智能的开源矢量数据库,旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的,并构建在Lance之上,专为高性能 ML 工作负载和快速随机访问而设计。
原创
发布博客 2024.04.15 ·
3230 阅读 ·
5 点赞 ·
0 评论 ·
20 收藏

向量数据库Chroma学习记录

Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。
原创
发布博客 2024.04.13 ·
1620 阅读 ·
28 点赞 ·
0 评论 ·
13 收藏

大白话扩散模型(无公式版)

虽然原始论文涉及到的知识包括随机分布,马尔科夫链等,而且推导过程极其复杂,但本文不会深入去推导相关的公式,而是把重心放在思考这个过程以及对其中发现的一些问题进行探讨。,因为一开始图片质量很高,加很小的噪声就发生很大的变化,而越后面的图片含有噪声越多,失真越严重,必须加更大的噪声才能引起较大变化。如果玩过文生图的话就能发现,选择了一定的采样步数后,前几步图片变化非常大,从模糊的噪声逐渐出现轮廓,后面几步基本不变,只是一些细节发生了变化。,然后我们用来进行训练一个模型,拟合训练数据的分布之后,就可以预测出。
原创
发布博客 2024.03.24 ·
862 阅读 ·
28 点赞 ·
0 评论 ·
22 收藏

零基础小白也行,只用一行命令在自己的电脑跑大模型

目前该项目更新非常快,从路线图看后期还会支持更多模型和功能。相比于研究更强大的模型,减少技术的使用门槛对于普通人来说,显得更有实际意义。
原创
发布博客 2024.03.12 ·
2034 阅读 ·
9 点赞 ·
0 评论 ·
14 收藏

llm构建数据标注助手

在LLM出现之前,传统的深度学习模型(包括CV和NLP)就已经需要大量的数据进行训练和微调。没有足够的数据,或者数据需要进行二次加工(比如标签标注),这些问题都成为限制深度学习模型泛化的关键。对于第一个问题,一般就是从网络上爬虫或者花大价钱从数据供应商购买数据;对于第二种情况,一般是找外包进行标注,这在业界非常普遍。
原创
发布博客 2024.03.10 ·
1192 阅读 ·
19 点赞 ·
0 评论 ·
19 收藏

Chat2table,简易表格分析助手

之前用智谱AI的Chatglm3-6b模型写过一个简单的论文阅读助手,可用来辅助论文阅读等。而像表格,如Excel、CSV文件等内容的分析,也是不可忽略的需要,因此本文同样使用Chatglm3-6b来搭建一个表格分析助手,用于快速分析表格的内容,提取有效的信息。ChatGLM3 采用了全新的对话格式,除最基本的对话外,还支持工具调用和代码执行。简单来说,代码执行属于工具调用的子类,只是提示词不一样,而这两种功能是通过修改微调阶段的提示词来实现的。
原创
发布博客 2024.02.29 ·
896 阅读 ·
14 点赞 ·
0 评论 ·
19 收藏

8k中英双语文本嵌入模型效果初探

向量模型用于生成向量表示,被广泛应用于检索、分类、聚类或语义匹配等传统的自然语言处理任务。到了大模型时代,由于上下文长度的限制,需要压缩、存储和查询大量的信息,这就需要用到向量模型对输入的文本进行向量化表示,然后再喂给大模型,以得到期望的输出。,例如处理数十页的报告综述等。
原创
发布博客 2024.02.25 ·
501 阅读 ·
8 点赞 ·
0 评论 ·
8 收藏

大语言模型常见的文本切分之语义嵌入

选择了一篇新闻稿,有比较明显的段落区分,每个段落由若干句子构成,可用于验证切分效果。
原创
发布博客 2024.01.24 ·
544 阅读 ·
6 点赞 ·
0 评论 ·
8 收藏
加载更多