番石榴AI-CSDN博客

原创文档智能识别的升级版V2.1 ！离线 OCR + 表格秒提+截图！

https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ 提取码: nt3z。截图识别：点击截图会隐藏本软件，利用鼠标框选图片进行识别，极大方便了用户的截图需求。v2.0版本是将之前的OCR与表格识别整合到一个软件上。支持左侧栏图片列表的删除，鼠标或delete键删除。1.文档智能识别V2.0。2.文档智能识别V2.1。

2025-07-29 10:00:15 180

原创文档智能识别V2.0：离线 OCR + 表格快速提取！

文档智能识别V2.0：离线 OCR + 表格快速提取！

2025-07-23 10:20:33 335

收集与准备：收集文档。预处理：将不同格式文档转换为干净的文本。人工标注：人工标记数千个实体。训练：利用专用模型进行微调训练。验证：对数据进行测试。即便投入了这么多时间和资源，准确率也很少能超过 90%。而当文档是图片或复杂的 PDF 时，情况就更棘手了，需要额外的光学字符识别（OCR）库，这又会引入新的潜在错误。传统NER最大的问题在于过于死板：只要与训练中使用的模式有任何偏差，就会导致提取失败。一份布局不同的合同，甚至是较差的图像质量，都可能影响提取结果。

2025-07-17 10:57:49 722

原创文档比对升级版 V1.1

文档比对。目前，文档比对支持的格式，包括：文本比对 txt 文件比对 docx 文件比对 excel 文件比对 pdf 文件比对

2025-07-16 09:16:40 264

原创文档图像漂白桌面软件（有下载链接）

一款“文档漂白”桌面软件现已正式完成！为方便大家体验，所有软件均支持离线下载试用，无需联网即可畅快感受核心功能。下载链接已为您备好（见下方），若在使用过程中遇到任何问题、有功能建议或其他想法，欢迎随时与我联系，我会尽快为您解答处理～。关注我，联系我：番石榴AI。

2025-07-02 11:06:18 180

原创表格识别、OCR识别以及文档比对桌面软件（有下载链接）

表格结构识别软件是一款功能强大的桌面应用程序，能够快速、准确地从图片中提取表格结构，并将其转换为可编辑的文本或格式化的表格数据。链接: https://pan.baidu.com/s/1VLdx-AIh-HdLj4UIb-nkMQ 提取码: nrz2。huggingface下载：https://huggingface.co/jiangnanboy/table_app。huggingface下载：https://huggingface.co/jiangnanboy/ocr_app。比对支持1.文本比对；

2025-07-01 16:31:40 168

原创对monkeyOCR进行量化

monkeyOCR中的识别模型为3B模型，要想丝滑使用，16G的GPU是必需的，这对于一般用户来说成本还是高了，现在这里打算分别对其量化为8Bit和4Bit的更小模型，将其从7G大小量化4G和2.3G左右，这样8G的GPU即可丝滑使用。以下是量化代码，其中torch=2.5.1，transformers=4.50.0。【关注我，微信公众号：番石榴AI】

2025-06-24 13:47:26 145 2

原创食品配料营养分析工具

这里实现一款桌面软件“番石榴。

2025-06-17 16:19:14 162

原创文档图片智能识别

无论是复杂的多行列表格，还是简单的基础表格，都能准确识别，适用于财务报表处理、数据统计分析等需要处理表格数据的业务场景，大大提高数据录入和处理的效率。版面识别功能接口主要用于分析图片中文档的版面结构，识别出文档中的标题、段落、列表、图表等不同类型的内容区域，并返回各区域的位置、类型等信息。通过该接口，能够快速了解文档的整体布局，为后续的内容处理和分析提供基础，适用于电子文档整理、文档自动化处理等场景。项目分别以python和java实现，可以sdk形式调用或独立离线和在线部署，

2025-06-12 10:34:46 430

原创实现文档图片漂白小工具

实现文档图片漂白小工具。功能主要有：1.选择单张或多张图片进行漂白；2.可对漂白后的图片进行保存。二.单张图片进行漂白。三.多张图片进行漂白。

2025-05-29 17:23:06 168

原创企业合同审核系统

实现企业合同审核系统。支持txt、word以及pdf格式文件的合同审核。功能主要有：1.审核功能主要有合同条款提取；审查报告以及准确性检查；2.分析结果可保存为txt、markdown或者html格式，便于查看。七.合同审核综合报告的保存，可保存为txt、markdown以及html格式。一.主界面，可上传txt、word及pdf格式合同文件。六.合同分析的准确性检查。二.合同关键条款提取。

2025-05-20 16:13:17 165

原创文档比对工具的实现

文档内容比对桌面工具。软件名为“番石榴文档比对工具”。完全离线，无需联网，单机免安装运行。2.txt文件比对；3.docx文件比对；4.excel文件比对。三.文件比对（txt、docx以及excel文件）

2025-05-20 09:06:16 167

原创 OCR文字识别桌面版软件（二）

的升级，实现了界面重构，实现了批量图片的识别以及保存。软件名为“番石榴OCR文字识别工具”。完全离线，无需联网，单机免安装运行。主要功能是选择图片；保存结果为txt文件。另外图片的预览功能增加了通过鼠标放大缩小以及点击拖动功能。批量上传需要识别的图片，会出现在左侧列表栏中，可以点击右侧。，可以识别所有图片文字，点击左侧相应图片，右侧。发布于 2025-05-16 16:54・江苏。，会将所有图片识别的结果保存为一个txt文件。进行放大缩小以及拖动查看图片。会出现相应的识别结果。

2025-05-16 16:58:32 192

原创实现OCR文字识别桌面版软件

这2天业余时间，实现了一款桌面版OCR文字识别软件工具，名字是“番石榴OCR识别工具”。完全离线，无需联网，单机免安装运行。主要功能是选择图片；保存结果可以直接保存为txt文件。

2025-05-16 09:59:23 186

原创利用deepseek进行智能写作与文章总结

完整项目：https://github.com/jiangnanboy/ai_writer_summary/智能写作：智能总结：需要注册deepseek账号，利用deepseek进行分析与生成web页面利用streamlit，见web_ui.pyImages 智能写作界面：

2025-04-28 22:29:57 210

原创多智能体架构

有时候，只有一个supervisor来做所有的决定，并决定调用哪个agent，agent可能会开始表现不佳，因为它可能处理太多的事情，并且需要是处理方面的专家。agent开始在工具选择上做出糟糕的决定。我们可以给我们在 Boss上欣赏的人发信息，或者某些社交软件上互发信息，这里的概念是一样的，但是现在有了agent，每个agent都可以和整个集合中的任何其他agent交谈。我们在搭建多agent时，随着需求越来越大，越来越多的工具进入我们的系统，而 agent 拥有多个工具，有时多达 10 多个工具。

2025-04-23 13:36:25 329

原创理解提示工程与 AI 对话

理解提示工程与对话如果我们想知道什么是提示工程，想象一下我们有一个超级聪明的助手，但这个助手需要非常明确的指示才能做我们想做的事情。这有点像使用大型语言模型（LLM），这是许多 AI 工具背后的技术。提示工程基本上是给这些LLM正确的指示或提示的艺术和科学，这样他们就能理解我们需要什么，并给我们准确和有用的结果。可以把提示想象成我们给的输入，比如一个问题或一个请求。任何人都可以写提示，就像我们可以向朋友提问一样。

2025-04-23 10:15:36 762

原创 deepseek中文知识图谱生成

利用大模型deepseek对中文文本、图片以及pdf中的非结构化文本内容进行分析，并提取主-谓-宾（SPO）三元组的知识形式，以及将这些关系可视化为知识图谱，完整项目见。这里利用deepseek进行相关分析。

2025-04-16 22:19:05 374

原创如何估计llm的GPU显存？

随着 GPT、 Llama 和 Deepseek等大型 llm 的兴起，人工智能从业者面临的最大挑战之一是弄清楚他们需要多少 GPU 显存来有效地为这些模型服务。这里通过一个简单有效的公式来估计LLM 服务所需的GPU 显存。使用上面的简单公式，我们可以估计不同精度级别所需的 VRAM，并相应地优化部署。如果我们正在处理像 Llama 70B 这样的大型模型，量化和并行是较好的选择，可以保持 GPU 成本可控。1. 使用量化：将我们的模型转换为 8 位或 4 位，以减少显存占用。

2025-04-01 10:57:41 895

原创模型上下文协议（MCP）简介

MCP 为更加互联的 AI 生态系统奠定了基础，使开发人员能够以最小的摩擦创建更智能，更强大的 AI 系统。随着越来越多的采用和不断的创新，MCP 有可能成为 AI 工具集成的行业标准，就像 TCP/IP 在网络中的作用一样。通过提供标准化的开源框架，MCP 简化了将 llm 连接到外部数据源、工具和工作流的过程，消除了复杂的一次性集成的需要。由 Anthropic 开发的 MCP 是开源的，这意味着任何人都可以使用和改进它，它旨在通过访问实时数据帮助 AI 给出更好、更相关的答案。

2025-03-28 14:57:39 823

原创利用大模型LLM生成训练数据

这里假设一家海嘉物流公司，此公司需做一个关于本公司物流的问答机器人，需要判断用户的查询语句是否与本公司物流相关，需要训练数据进行分类，故利用deepseek进行生成与审核，免于无数据和标注的烦恼。

2025-03-27 08:57:48 190

原创利用LLM实现chatexcel数据分析

利用周末时间做了一个chatexcel应用，采用自然语言对话形式，对excel表格数据进行分析，结果可返回文本，表格和图表形式。

2025-03-20 14:35:25 336

原创代理 RAG：自主 AI 代理如何改变信息检索

例如，给定一个用户查询，系统生成该查询的向量embedding，在知识库中找到类似的向量（文档），然后将这些检索到的片段与查询一起送到 LLM 中，以生成上下文感知的答案。，尽管它不是唯一的，也是最好的，市场上有很多，这里将在以后的博客中使用它们，但让这里从这个例子（一个用于构建 LLM 应用程序的开源框架）开始，以说明如何使用检索工具构建代理，同样，你可以使用其他库实现类似的想法，或者从头开始。在一个普通的 RAG 系统中（如上所示），这个过程是直接的和反应性的：对于每个查询，检索一次并生成。

2025-03-20 14:06:45 619

原创智能客服支持助手

customer_support_assistant https://github.com/jiangnanboy/customer_support_assistant1.简介customer_support_assistant是智能客服支持助手项目，利用LLM对Query的理解，去调用相应函数，实现智能客服功能。本项目具体的功能为根据用户的查询，利用deepseek去理解查询并返回所需调用的函数和参数，根据这些返回信息，调用本地函数，实现相应客服功能。本项目实现的是一个用户订单客服智能助手。2.项目LLM

2025-03-05 21:21:21 262

原创 pdf多模态rag问答

本项目对PDF文件进行解析，对其中的图、表以及文本进行Embedding化，并进行存储。根据用户query进行检索，将检索后的结果(包括图表和文本)和query输送到多模态LLM,pdf_multimodal_rag 项目主要包含pdf解析，表格检测，文本和图表的embedding化，向量存储，向量检索，LLM问答等部分。pdf multimodal rag 【pdf多模态rag问答】从而得到最终分析结果。

2025-02-26 23:23:52 894

原创如何蒸馏 Deepseek-R1

deepseek-r1蒸馏

2025-02-06 16:57:52 2223 1

原创一个Java实现的OCR系统

java ocr

2024-12-28 00:06:46 284

原创人工智能Agent提示工程的六个关键要素

多个版本的屏幕截图，如干净的和注释的版本，有助于减少潜在的障碍。6.补充信息：额外的上下文，例如来自代理记忆的历史数据或来自外部来源的知识，如RAG（检索-增强生成），可以改进代理的决策过程。2.Agent指令：清晰而详细的指令指导代理的操作，指定代理的角色、要遵循的规则和预期的输出。这种提示工程的系统方法最大限度地提高了llm驱动的GUI代理的有效性，使它们能够无缝地处理复杂的用户请求。一个构造良好的提示封装了所有必要的信息，确保AI Agent生成准确的响应并有效地执行任务。

2024-12-27 15:40:41 304

原创小模型在LLM时代的作用

然而，由于 SMs 的简单性、较低的成本和可访问性，在受限环境或需要高度可解释性的任务中，SMs 通常优于LLM。LLM需要大量的计算资源进行训练和推理，导致高成本和延迟，这使得它们不太适合实时应用，如信息检索，或在资源有限的环境中，如边缘设备。相比之下，较小的模型往往更专业化，研究表明，在特定领域的数据集上对它们进行微调，有时可以在特定任务上比一般LLM获得更好的性能。相比之下，较小的模型需要更少的训练数据和计算能力，在提供有竞争力的性能的同时大大降低了资源需求。

2024-09-28 22:48:22 774

原创小模型(SLM)的效率、性能和潜力

例如，最新的谷歌和三星智能手机内置了大型语言模型(LLM)服务，如 Gemini Nano，它允许第三方应用程序通过提示和模块化集成来访问 LLM 功能。同样，iphone 和 ipad 上最新的 iOS 系统包括一个与操作系统紧密集成的设备上基础模型，既增强了性能，又增强了隐私。通过在个人设备上启用人工智能功能，slm 旨在使强大技术的使用民主化，使人们能够随时随地使用智能系统，而无需依赖基于云的资源。一般来说，数据的质量比数据的数量或特定的模型架构更重要。在最近的研究中得到了越来越多的关注。

2024-09-28 22:47:48 503

原创如果没有真实数据，如何评估 RAG

下面，我们将介绍三种有效的策略，从零开始创建 ground truth 数据集的方法，当你确实拥有数据集时可以用来评估的指标，以及可以帮助你完成这一过程的现有框架。通过将数据分解成这样的特定主题，你不仅可以为训练创造更多的数据点，还可以使你的数据集更加精确和集中。它包括评估检索和生成的指标，提供了一种全面的方法来衡量您的系统在每个步骤中的表现。较高的阈值(如 0.8 或更高)意味着有更严格的要求，而较低的阈值将带来更多的数据，这可能是有帮助的，也可能只是嘈杂的。你可以利用这些反馈来构建你自己的迷你数据集。

2024-09-26 21:20:56 917

原创 AgentLite 一个轻量级LLM Agent框架

虽然 Autogen 已经成功地构建了 LLM 代理，但它的代理接口有固定的推理类型，这使得它很难适应其他研究任务。该研究还指出，LangChain 是一个流行的库，用于开发使用大型语言模型(llm)的应用程序，提供内置工具来创建各种代理类型。在其代理创建过程中可能是复杂或僵化的，它简化了任务，为研究人员开发新的代理推理类型和架构提供了灵活性和定制性。所有动作及其产生的观察结果都立即保存在memory中，允许代理在正在进行的任务期间引用其先前的决策。，这是一个旨在构建 AI 代理的开源框架。

2024-09-25 22:17:23 518

原创校对：一键修复所有错误

接下来，在一个合成数据集上对模型进行微调。校对是 Gboard 的一项新功能，它使用服务器端大型语言模型(LLM)，只需点击一下就可以提供无缝的句子级和段落级更正，减轻了那些喜欢专注于打字而不是检查已提交单词的快速打字者的痛点。使用大型语言模型(LLM)过滤噪声数据，并使用精心设计的指令，以避免污染模型。为了优化模型，使用了近端策略优化(PPO)，其中涉及到 KL 散度，以帮助模型保留恢复原始文本的能力。给定三个元素，输入(损坏的文本)，答案(从模型中预测的候选人)和目标(基本事实)，我们提出以下指标。

2024-09-25 22:16:47 644

原创 21 种 AI 小模型

小型语言模型通过为广泛的应用程序提供高效、可扩展和高性能的解决方案，正在改变 AI 的格局。它们紧凑的尺寸和减少的资源需求使其成为在计算能力和内存有限的环境中部署的理想选择。许多 slm 是通过知识蒸馏创建的，在这个过程中，较小的模型学习模仿较大模型的行为，保留了原始模型的大部分性能。许多小的语言模型都是 BERT(来自transformer的双向编码器表示)的变体，针对效率和速度进行了优化。随着新技术和体系结构的开发，slm 的性能不断提高，缩小了它们与更大模型之间的差距。

2024-09-23 22:54:06 2912

原创小语言模型:为业务需求定制AI

通过提供量身定制的、具有成本效益的解决方案，slm使公司能够利用 AI 的力量，而无需大型模型的复杂性和资源需求。无论您是希望改善患者护理的医疗保健提供商、旨在增强客户体验的零售商，还是寻求市场洞察力的企业，slm 都能提供在日益数字化的世界中保持竞争力所需的精度和效率。那些希望利用人工智能的企业来说是一个明智的举措，同时又不需要高昂的价格和大型模型的复杂性。想象一个技艺高超的工匠，他对自己的手艺了如指掌，但并不试图掌握每一项可能的技能——slm 是为了在自己的领域中脱颖而出而设计的。

2024-09-22 19:42:23 1144

原创教小模型进行推理

然而，较小的 lm 的推理能力在 CoT 提示下并没有提高，大多产生非逻辑的CoT。值得注意的是，CoT 提示甚至降低了小于 100 亿个参数的模型的准。这项研究又是一个很好的例子，证明了快速工程技术是有效的，正在进入语言模型训练。研究表明，这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。谷歌断言，推理能力只出现在具有至少数百亿参数的模型中。这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。众所周知，思维链提示提高了大型语言模型的推理能力。

2024-09-16 22:07:26 338

原创引入语义标签过滤:利用标签相似度增强检索

然后我们可以对得到的矩阵进行转置，并对其进行压缩:我们将对可用的标签索引使用 1 和 0 来初始编码我们的查询/样本，从而得到与我们的初始矩阵(53,300)长度相同的初始向量。目前，我们缺乏适当的数学验证(乍一看，从 M 中平均相似度得分已经显示出非常有希望的结果，但需要进一步的研究来获得有证据支持的客观指标)。我们可以看到，传统搜索可能(没有额外的规则，样本是根据所有标签的可用性进行过滤的，而不是排序的)返回一个标签数量较多的样本，但其中许多标签可能不相关。的稀疏矩阵(相当不实用的壮举)。

2024-09-15 23:08:05 998

原创 RAG 幻觉检测方法

通过整合这些方法，RAG 系统可以实现更高的可靠性，并确保更准确和可信的响应。在一个广为流传的案例中，一家大型航空公司(加拿大航空公司)输掉了一场官司，因为他们的 RAG 聊天机器人对他们的退款政策的重要细节产生了幻觉。中的每个实例都包含一个检索到的大型明文财务信息上下文，以及一个关于该信息的问题，例如:卡夫亨氏(Kraft Heinz) 2015 财年的净营运资金是多少?精度的错误答案(RAGAS 忠实度的平均精度为 0.762，幻觉度量的平均精度为 0.761，自我评估的平均精度为 0.702)。

2024-09-13 21:36:44 1309

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

文档图像漂白桌面软件，无需联网，单机运行，可对图像进行漂白，适合合同，公文等 支持可保留红色印章，图像高分辨率等功能

智能文档识别V2.1版本，功能：OCR+表格结构识别，截图识别

文档智能识别V2.0：离线 OCR + 表格快速提取！​

ocr识别桌面软件，用于图片的文字识别

用于文档内容比对，支持txt；docx；excel；pdf格式的文档 用于找出2篇文档的差异，适用于合同内容比对等

文档图像漂白桌面软件工具，用于对文档图像进行漂白

空空如也

文档图像漂白桌面软件，无需联网，单机运行，可对图像进行漂白，适合合同，公文等支持可保留红色印章，图像高分辨率等功能

文档智能识别V2.0：离线 OCR + 表格快速提取！

用于文档内容比对，支持txt；docx；excel；pdf格式的文档用于找出2篇文档的差异，适用于合同内容比对等