- 博客(548)
- 资源 (69)
- 收藏
- 关注

原创 通俗易懂的Latex教程文档
本篇文档可以搭配视频讲解使用。讲解视频: 通俗易懂的Latex教程(附数学建模国赛美赛模板) 这是一份面向刚入门数模,想要快速上手Latex排版的同学的Latex教学文档。在线编辑网站overleaf:https://www.overleaf.com/我所使用的环境:TeX Live (自带编辑器TeXworks) 编辑器:TeXstudioTeX Live和TeXstud
2021-10-05 17:02:15
33461
16
原创 【Ragflow】28.RagflowPlus(v0.4.2):继续修复相关问题
本次对进行一轮小版本更新,发布 v0.4.2 版本,主要对上一版本存在的问题进行修复。开源地址:https://github.com/zstar1003/ragflow-plus。
2025-06-10 16:31:09
319
2
原创 一套个人知识储备库构建方案
比如,我要查询某篇文章中用到的一个命令,但忘了在哪一篇文章,导致翻阅文章的时间远远超过再查询的时间。好记性不如烂笔头,将阶段性的经验总结成文章,下次遇到相同的问题时,查起来比再次去搜集资料快得多。仓库地址:https://github.com/zstar1003/KnowRepo。于是我打算构建一个多端可同时访问的网页,用来记录需要经常查询的命令。上传到github后,可以利用Github Page的方式进行部署。然而,当文章越来越多时,有一个问题逐渐开始变得“严峻”起来。的前四个字母组合,起名为。
2025-06-08 22:24:59
210
原创 【Ragflow】27.RagflowPlus(v0.4.1):小版本迭代,问题修复与功能优化
此次更新后,在局域网服务器中进行了一轮测试,目前已基本能满足个人应用场景的使用需求。后续会将精力投入到大模型相关的基建拓展研究中,比如,embedding模型的效果如何评估,如何微调大模型。之前定下的Ragflow-Plus的更新计划将会暂缓推进,如果有开发经验的读者想继续对此项目进行贡献,欢迎提交PR。
2025-06-08 22:23:45
590
原创 【Ragflow】26.RagflowPlus(v0.4.0):完善解析逻辑/文档撰写模式全新升级
RagflowPlus v0.4.0发布摘要 开源项目RagflowPlus迎来重大更新,主要优化包括: 文件上传支持选择文件夹自动解析子文件,优化传输通道减少超时 文档撰写模块重构,新增自定义模板功能,独立响应通道提升速度,支持知识库选择和参数调节 多项优化:调整解析逻辑修复关键词检索问题,修复知识库权限BUG,改进Excel解析效率,统一Ollama接口为v1/embeddings
2025-06-06 11:44:43
1052
原创 【Ragflow】25.Ragflow-plus开发日志:excel文件解析新思路/公式解析适配
本文对表格和公式两类元素进行调优测试,不难发现,对于rag系统来说,检索是至关重要的环节。想要效果好,就需要对每一个块进行精调。因此,在进行对话测试前,检索测试是必要环节:如果检索不出来,那就要排查chunk块的类型和关键词设定;如果能检索到,模型回答不出来,那就是模型本身的性能问题。
2025-06-03 09:55:26
1451
原创 【Ragflow】24.Ragflow-plus开发日志:增加分词逻辑,修复关键词检索失效问题
理解完检索过程后,回到开篇提到的问题,就可以进一步定位:关键词相似度不足,实际原因就是解析块和问题的分词逻辑不一致。在现版本中,解析时,文本的分词直接通过处理,即会将空格,制表符\t、换行符\n等字符,作为分隔依据,这样操作太过简单。ragflow的分词器在1. 预处理:- 将所有非单词字符(字母、数字、下划线以外的)替换为空格。- 全角字符转半角。- 转换为小写。- 繁体中文转简体中文。2. 按语言切分:- 将预处理后的文本按语言(中文/非中文)分割成多个片段。
2025-06-02 20:31:00
1688
原创 字节Dolphin:多模态模型分阶段解析的新思路
1.能够识别文档顺序,双栏情况下的阅读顺序处理得不错2.提示词内嵌,这样就可以无需用户再输入具体的文本提示词,同时在一定程度上保证效果的稳定性。1.Dolphin本质上还是基于自回归多模态模型的路线,特别是该模型在不同阶段用不同的prompt进行训练复用,个人感觉这样做会潜在增强模型的幻觉问题,看仓库的讨论区,幻觉现象反馈确实比较多。2.没有对论文文档进行特异性处理,比如同类产品基本都能在模型层面屏蔽页眉页脚信息,以减少后处理的复杂度。3.对于图像元素,会进行过滤,没有图像文件信息输出。
2025-05-26 10:32:24
698
原创 【不背八股】1.if __name__ == “__main__“ 有什么作用?
最近开始准备秋招,技术圈惯例会把常见的面试问答题戏称为“八股文”,网上流传不少这样的材料,写得晦涩难懂,以至于让好多求职者去。在我看来,用文科思维学工科毫无意义,八股实际就是一些基础计算机科学知识,如何用清晰地方式去理解,实践,应用才更有价值。因此,打算开个新的系列文章[],用一种全新的表述方式,重新理解八股面试题。
2025-05-25 13:20:52
314
原创 MinerU v1.3.12:支持ppocrv5模型
昨天(2025-05-24),MinerU 进行了一轮小版本更新,当前版本更新到。MinerU项目地址:https://github.com/opendatalab/MinerU此轮更新围绕ppocrv5模型展开,涵盖以下两点:将ch_server模型更新为ch_lite模型更新为。增加手写文档的支持:通过优化layout对手写文本区域的识别,现已支持手写文档的解析可通过lang参数chch_serverch_litech_lite_v4。
2025-05-25 13:20:14
927
原创 FreeTex背后的算法:UniMERNet算法解读
本文介绍了数学表达式识别(MER)领域的UniMERNet算法及其构建的UniMER数据集。UniMERNet基于Swin-Transformer编码器和mBART解码器,通过细粒度嵌入、卷积增强等技术提升识别精度,在四种数学表达式类型(SPE/CPE/SCE/HWE)上表现优异。
2025-05-23 22:53:13
1050
原创 PaddleOCR的Pytorch推理模块
本文介绍了将百度PaddleOCR模型转换为PyTorch版本的过程,以解决PaddlePaddle框架与PyTorch项目兼容性问题。
2025-05-21 17:28:10
1497
原创 FreeTex v0.3.0:支持静默运行/软件体积压缩
FreeTex发布v0.3.0版本,主要更新包括静默运行和体积压缩。静默运行功能允许软件在关闭窗口后最小化到托盘,避免重新加载模型导致的工作中断。体积压缩通过模型精度转换和安装包优化,将下载文件体积从1.07GB减少至603.75MB。此版本仅适用于Windows_x86_64用户,未做功能更新,无需强制下载。
2025-05-18 14:54:55
378
1
原创 【Ragflow】22.RagflowPlus(v0.3.0):用户会话管理/文件类型拓展/诸多优化更新
RagflowPlus发布了v0.3.0版本,新增了用户会话管理、知识库图像预览显示、文件类型解析拓展、聊天对话字体动态调节等功能。同时,对信息排序、知识库创建、嵌入模型适配等方面进行了优化,并修复了用户人数显示不全、创建时间异常等问题。
2025-05-17 21:07:43
883
原创 FreeTex v0.2.0:功能升级/支持Mac
FreeTex发布了v0.2.0版本,主要更新包括新增识别结果预览显示、支持Latex格式化输出、软件体积优化及移除控制台黑窗,并首次推出macOS(arm64)版本。Windows版本现提供压缩包,解压后直接运行。macOS版本因系统限制,部分新功能无法生效,且需用户手动调整安全设置以安装。软件优化了识别功能,建议用户在使用时避免截图包含文字或使用暗色背景,以确保识别准确性。此外,软件统一使用CPU版本,以提高兼容性和减少资源占用。FreeTex团队感谢社区成员的贡献,并强调软件将保持简洁,专注于公式识别
2025-05-10 10:11:43
1176
原创 FreeTex:免费的智能公式识别神器
FreeTex 主要解决了公式识别需要付费的问题,作为本地计算软件,无需联网,没有服务器运维成本,并有效保护了数据隐私性。
2025-05-06 15:04:34
2329
11
原创 深入拆解 MinerU 解析处理流程
MinerU更新频率也相当频繁,在短短一个月内,更新了10个小版本。本文结合最新版本v1.3.10,深入拆解下它进行文档解析时的内部操作细节。
2025-05-02 16:05:52
1067
翻译 MiMo-7B:小米大模型,为推理而生
我们提出了 MiMo-7B,一个专为推理任务而生的大型语言模型,其优化贯穿了预训练和后训练两个阶段。在预训练期间,我们增强了数据预处理流程,并采用三阶段数据混合策略来强化基础模型的推理潜力。MiMo-7B-Base 在 25 万亿(Trillion)个 token 上进行预训练,并引入了多词元预测(Multi-Token Prediction)目标以提升性能和加速推理速度。
2025-05-01 14:09:39
218
原创 MCP:从理论到实践
MCP这个词最近比较流行,在`ragflow v0.18.0`版本中,新增了MCP服务器,因此,花了两天时间,对MCP进行了一些调研。
2025-04-29 00:10:28
795
原创 【Ragflow】21.RagflowPlus(v0.2.1):诸多bug修复/重置密码功能
`RagflowPlus`在一轮紧急更新后,修复了6个主要问题,并新增用户密码重置的功能。
2025-04-26 00:29:40
1072
原创 【Ragflow】20.RagflowPlus设计理念与操作教程
RagflowPlus在更新至v0.2.0受到了很多关注和使用反馈。本文主要介绍RagflowPlus设计理念与操作方式,以便新关注的读者也能快速上手。这次录制了一段视频,如果觉得图文内容较长,看起来费力,可以点击下方链接,观看视频。
2025-04-24 12:13:03
4189
11
原创 【Ragflow】18.更好的推理框架:vLLM的docker部署方式
看到不少人说“Ollama就图一乐,生产环境还得用vLLM”。本文决定使用docker对vLLM进行部署,并解决模型配置中,IP地址的硬编码问题。
2025-04-16 17:14:16
1625
1
原创 【Ragflow】17.Ragflow-Plus开发日志:增加知识库管理功能/支持MinerU解析/图片存储与读取
文件管理和知识库管理两个菜单具有先后关系。用户首先需要上传文件到文件管理菜单中,此步骤会增加数据库中file表的记录,一条记录对应一个文件。之后,在知识库管理界面,用户可以查看管理所有用户的知识库,对应的是数据库中表,私人构建的知识库也难逃法眼。新建数据库,默认会以第一个注册用户的名义构建,可以选择语言、权限。语言标记对实际功能不产生影响,只是作为标签进行提示。权限会对共享情况产生影响,如需团队成员共同查看到该知识库,可设置为团队。
2025-04-15 01:37:29
1432
1
原创 【Ragflow】16.Ragflow-Plus管理系统开发日志:重塑文件管理单元
ragflow 有个文件管理菜单,但是每个用户只能看到自己上传的文件,看不到其它用户上传,这显然会对管理造成阻碍。并且,在minio存储桶中,对于单次上传的所有文件会存在同一个桶中,比如,上传一个文件夹,会新建一个桶存放所有文件夹中的文件;再上传一个单独文件,又会新建一个桶存放新的文件。这样设计是非常糟糕的,客观上造成了维护和二次开发的难度。
2025-04-12 14:12:00
1324
原创 【Ragflow】15.Ragflow-Plus管理系统v0.1.2:小升级,修复一些已知问题
Ragflow-Plus v0.1.1 在经历一轮用户测试和反馈后,发现了一些问题,v0.1.2 版本进行一轮小更新,修复以下问题:1.新建用户模型配置不全问题2.用户为空时,添加用户异常问题3.用户配置界面点击未刷新问题4.管理员账号密码无法修改问题5.前后端API调用访问不畅问题Ragflow-Plus 仓库地址:https://github.com/zstar1003/ragflow-plus如果尚未下载此仓库代码,推荐使用 git 的方式下载:如果已经使用 git 方式下载,可以在项目根路径下,
2025-04-10 12:42:43
965
原创 【Ragflow】14.MinerU解析脚本,接入ragflow知识库
前文写了下 MinerU 的解析效果,收到不少读者催更,想利用 MinerU 替换 Deepdoc 的原始的解析器。我认为,开发新功能基本可遵循这三个阶段:能用:先通过脚本实现该功能,主打的是能用就行好用:不仅能够满足需求,而且搭配简洁易操作的界面,方便用户无需编程也能操作用好:考虑可拓展性,进一步满足日益变化的新需求。本文借助 MinerU 和 Ragflow 的原生接口,实现 MinerU 对指定文件进行解析,批量插入解析块,先实现能用的阶段。
2025-04-08 18:29:22
2039
2
原创 【Ragflow】13.Deepdoc效果一言难尽,MinerU解析降维打击
要用好rag的输出增强效果,文档解析是关键一环。如果文档解析块存在问题,那么后面检索到的内容,也会对模型造成错误干扰。前文分析过,ragflow使用自研的Deepdoc算法对不同类型的文档进行解析,然而,对于pdf文件,在多数情况下的解析效果并不如意。
2025-04-07 11:37:24
2702
1
原创 【Ragflow】12.Ragflow-Plus管理系统v0.1.1:增加团队管理和用户配置功能
ragflow-plus仓库地址:https://github.com/zstar1003/ragflow-plus
2025-04-06 00:44:15
1707
6
原创 【Ragflow】11. 文件解析流程分析/批量解析实现
本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。
2025-04-04 18:48:36
943
原创 【Ragflow】10. 助理配置参数详细解析/模型响应加速方法
Ragflow的助理配置中,有很多参数,尽管官方文档给出了一定程度的解释,但不够详细。本文将对各项参数进行更详细的解释说明,并进一步挖掘某些参数中隐含的潜在陷阱。
2025-04-03 16:01:39
1854
原创 【Ragflow】9.问答为什么比搜索响应慢?从源码角度深入分析
前几天看到有群友提到一个现象:Ragflow的搜索界面的问答速度很快,但聊天界面的问答速度很慢,究竟是什么原因?在深入挖掘源码之后,逐渐发现了问题的答案。
2025-04-02 18:22:06
1446
4
原创 【Ragflow】8.基于ragflow API 搭建极简聊天Web界面
ragflow,dify之类的,对一些普通人来说还是不太友好,有没有什么开源平台对接api,给用户提供一个像千问,kimi那样的用户界面?之前的文章,看到有朋友这样留言。想来确有道理,ragflow 即便不让用户自己上传文档,也需要创建助理、预设提示词、选择知识库,对用户的确不友好。从商业角度上考量,为什么支付宝要做碰一碰支付?省去一步打开付款码操作,也会带来无穷的商业价值。因此,有必要实现一个更简单的界面,让用户打开即用。
2025-03-31 21:03:03
920
20
原创 Meissonic:一个轻量级的文生图模型
最近看了下文生图领域的最新进展,发现ICLR 2025有篇工作实现了轻量化的文生图模型,看效果图着实不错,本文来试玩一下。
2025-03-30 14:58:21
1002
原创 【Ragflow】7. Ragflow-plus和Ragflow有什么关系?主流问题Q&A
Ragflow 是主流 RAG 结合大模型问答的框架之一,然而其开源版本存在诸多问题,例如,团队使用时,成员间知识库共享操作繁琐,缺乏有效的用户管理后台。因此,我对其进行二次开发,解决了部分问题。解决方案开源共享出来,起名为仓库地址:https://github.com/zstar1003/ragflow-plus。
2025-03-29 12:55:59
1606
原创 【Ragflow】5.看完Python API文档,竟然成为了官方仓库的Contributor
本文将对Ragflow pythonAPI文档进行中文化梳理,主要根据原文档对主要功能模块的example进行梳理,对于详细参数,可根据英文标识进一步参考原文档。
2025-03-27 11:32:23
1864
数据集spacenet/AICrowd/CHN6-CUG/deepglobe-road-dataset/Massachuset
2022-07-07
苹果科技官网前端界面(纯H5/CSS/Javascript)
2022-06-13
Android:简单登录注册Demo
2022-06-13
【Android】husbandry项目工程文件
2022-06-13
雾霾定位探测系统(App)
2022-05-11
MLP/LeNet/AlexNet/GoogLeNet/ResNet在三个不同数据集上的分类效果实践
2022-05-02
雪堆博弈-最小节点覆盖问题程序与文档
2022-05-02
医学数据库MIMIC-III v1.4
2022-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人