- 博客(193)
- 收藏
- 关注
原创 手把手教你用 Python 从零写一个 AI Agent(无框架,DeepSeek 版)
手把手教你用 Python 从零写一个 AI Agent(无框架,DeepSeek 版)
2026-01-28 16:29:01
473
原创 Office多智能体系统的架构(系列一)
Hello,大家好,我是番石榴AI,老番。我准备研发一套Office 多智能体系统—— 它以多智能体协同为核心,打通文本、语音、图片等多模态输入,覆盖写作、表格、演示、文档处理等全场景办公需求,构建起 “输入 - 分析 - 路由 - 执行 - 输出” 的全链路智能办公闭环。这是office多智能体系统研发系列文章的第一篇。详细流程图简化流程图本文将结合系统的核心流程图,为大家拆解这款智能体系统的设计理念、技术架构与核心优势。具体的细节会一步步探讨。传统办公软件的智能化往往局限于 “单一功能 + 简单交互”,
2026-01-08 09:45:15
969
原创 别再调用API了!5分钟用SpringBoot和JiaJiaOCR,自建一个企业级OCR服务
作为一名Java程序员,你是不是也想过在项目里加点“AI”魔法,比如让程序能看懂图片里的文字?看,图片里的文字被精准地识别出来了,并且返回了每行文字的坐标和内容。是OpenCV开发的最佳实践,能有效避免内存泄漏,保证服务稳定。一个属于你自己的、免费的、高性能的OCR服务,就这么诞生了!将图片转为灰度图,这是提升OCR识别率非常有效的一步。不是功能太弱,就是文档缺失,最后只能放弃。⭐️,您的支持是我持续创作的最大动力!哈喽,大家好,我是番石榴AI,老番。,value选择一张包含文字的图片。
2026-01-07 09:47:08
332
原创 JiaJiaOCR:面向Java ocr的开源库
在 OCR 技术落地过程中,Java 开发者常面临的困境 —— 要么依赖jni调用 exe/dll 外部文件,要么跨平台部署踩坑不断。🎉📦 版本更新速览🔥 轻量版 (1.0+) - 精简高效⚡ 全功能版 (2.0+) - 功能全面🎯 四大核心功能详解1. 📝 通用OCR:印刷体识别标杆延续 1.0 + 版本的高精度印刷体识别能力,支持中英文、数字、符号混合识别,返回文本内容与坐标,适用于发票、标签、广告牌等印刷体场景。2. ✍️ 手写OCR:突破手写识别难点。
2026-01-06 09:11:50
1105
原创 java版的ocr推荐引擎——JiaJiaOCR 2.0重磅升级!纯Java CPU推理,新增手写OCR与表格识别
JiaJiaOCR 2.0的升级核心,是从"解决Java开发者OCR集成痛点"到"提供全场景文本解析能力"的跨越。纯Java实现保障了跨平台部署的便捷性,新增的手写OCR与表格识别功能则直击实际业务中的高频需求。如果你正在为Java项目寻找轻量、高效、无依赖的OCR解决方案,不妨试试JiaJiaOCR 2.0——5分钟集成,一站式覆盖从印刷体到手写体、从文本识别到表格结构化的全需求。期待你的使用反馈,也欢迎一起讨论,让Java OCR生态更加强大!
2025-12-10 13:43:42
880
原创 纯 Java 实现的 OCR 推理系统:JiaJiaOCR,告别 exe/dll 依赖!
JiaJiaOCR的目标是为Java开发者提供一个简单、高效、跨平台的OCR解决方案,让OCR集成不再是难题。无论你是个人开发者还是企业团队,都可以轻松接入,快速实现OCR功能。如果你正在寻找Java OCR库,不妨试试JiaJiaOCR——纯Java实现,5分钟即可集成!
2025-12-09 10:53:44
548
原创 实现一种超轻量级的有线表格识别方法(有代码,可部署)
在无意间看到一篇CBMS2021的一篇论文《NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and Colonoscopy》,该论文是专为视频胶囊内窥镜和结肠镜图像的息肉分割设计的架构,是一种医学图像分割的方法。故打算基于以上模型的架构去实现一超轻量级的有线表格识别方法,模型训练后的大小为。
2025-11-19 08:45:26
328
原创 构建智能医疗诊断助手:基于 LangGraph 和 DeepSeek 的实践指南
在医疗领域,诊断过程是一个复杂、多步骤且需要高度专业知识的流程。随着人工智能技术的发展,我们能够构建智能系统来辅助医生进行诊断,提高效率和准确性。本文将详细介绍如何使用 LangGraph 和 DeepSeek 模型构建一个智能医疗诊断助手,从设计理念到代码实现,为您提供一个完整的实践指南。完整项目见:https://github.com/jiangnanboy/medical-diagnosis-assistant。
2025-11-07 09:09:24
844
原创 视频转ppt/pdf V2.0版(新增转为可编辑PPT功能)
在V1.1基础上,新增加了视频转为可编辑PPT的功能,将文字转为可编辑形式,用户可以在转换后的PPT里进行修改,删除等操作。点击生成PPT(可编辑),针对提取后的内容,生成可编辑形式的PPT,可以对里面的文字进行手动编辑。转换流程是:提取内容 -> 去除重复项 -> 转为ppt/pdf。点击生成PPT(图像),针对提取后的内容,生成图像形式的PPT。在提取内容结束后,可点击去除重复项,去除提取的重复内容。点击生成PDF,针对提取后的内容,生成图像形式的PDF。在视频预览窗口单击视频的时间点,提取单帧视频。
2025-11-06 09:58:50
684
原创 基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)
基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)
2025-11-03 09:38:34
525
原创 我更新了几款文档智能处理桌面软件
本次针对「OCR识别」「文档比对」「文档图片处理」「视频转PPT/PDF」四款核心工具完成更新,从稳定性、轻量化、易用性三大维度优化体验,搭配全新名称与图标,让功能匹配更清晰,以下为详细内容。
2025-10-17 11:11:15
305
原创 自己动手做一款ChatExcel数据分析系统,智能分析 Excel 数据
在日常办公、业务分析或是学生处理作业数据时,Excel 表格几乎是大家离不开的数据处理工具。但传统的 Excel 分析往往需要掌握复杂的函数和代码知识,这让不少人在面对大量数据时望而却步。而今天,我要给大家介绍的 ChatExcel,正是为解决这一痛点而来,它能让 Excel 数据分析变得便捷又高效。一、项目简介:用智能打破数据分析壁垒ChatExcel 是一款专注于智能表格数据分析的工具,其核心分析能力基于deepseek 大模型构建。这一强大的技术支撑,使得 ChatExcel 能够深度理解 Excel
2025-10-16 13:50:16
782
原创 视频转档软件:高效实现视频与 PPT、PDF 的灵活转换
用户可通过拖拽时间轴或输入具体时间节点,精准圈定需要转换的视频片段(如课程中的重点章节、会议中的核心讨论环节、演讲中的关键观点部分),仅将该区间内的内容转换为 PPT 或 PDF,避免冗余信息干扰,让文档更聚焦核心要点。这款视频转 PPT 与 PDF 软件,以 “全场景转换 + 本地安全运行” 为核心优势,既解决了手动整理视频信息的效率难题,又消除了数据传输的安全顾虑,适用于企业办公、教育教学、个人学习等多种场景,是提升工作与学习效率、保障数据安全的实用工具。一、三大核心转换功能,覆盖多元使用场景。
2025-09-30 17:23:38
538
原创 文档图像处理桌面软件 V2.1.1 版
本软件是文档图像处理桌面工具的迭代升级版本(V2.1.1),在 V2.1 版本的核心能力基础上,重点新增矫正功能,进一步强化文档图像处理的实用性,更好适配日常办公等高频场景需求。漂白处理:优化文档图像色彩对比度,去除纸张泛黄、光线不均等问题,让文字、图案更清晰易读;去阴影优化:精准消除拍摄时因光线角度、遮挡产生的阴影(如手部阴影、桌面投影等),还原文档原始视觉效果;新增矫正功能:覆盖多场景图像修正需求,包括:文档扭曲矫正:自动修复拍摄时因角度偏差导致的文档变形(如褶皱扭曲);
2025-09-11 09:30:22
348
原创 复杂结构化场景下的通用公式识别
在科学文献智能化分析领域,数学公式的光学字符识别(OCR)技术是实现学术内容自动检索、编辑与分析的核心支撑,对学术研究与知识管理具有不可替代的作用。然而,当前无论是任务专用模型还是通用视觉语言模型(VLMs),在应对数学内容固有的结构多样性、复杂性及真实场景变异性时均存在明显短板。
2025-08-27 09:14:48
836
原创 文档智能识别的升级版V2.1 !离线 OCR + 表格秒提+截图!
https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ 提取码: nt3z。截图识别:点击截图会隐藏本软件,利用鼠标框选图片进行识别,极大方便了用户的截图需求。v2.0版本是将之前的OCR与表格识别整合到一个软件上。支持左侧栏图片列表的删除,鼠标或delete键删除。1.文档智能识别V2.0。2.文档智能识别V2.1。
2025-07-29 10:00:15
297
原创 使用LLM大模型进行结构化实体抽取
收集与准备:收集文档。预处理:将不同格式文档转换为干净的文本。人工标注:人工标记数千个实体。训练:利用专用模型进行微调训练。验证:对数据进行测试。即便投入了这么多时间和资源,准确率也很少能超过 90%。而当文档是图片或复杂的 PDF 时,情况就更棘手了,需要额外的光学字符识别(OCR)库,这又会引入新的潜在错误。传统NER最大的问题在于过于死板:只要与训练中使用的模式有任何偏差,就会导致提取失败。一份布局不同的合同,甚至是较差的图像质量,都可能影响提取结果。
2025-07-17 10:57:49
993
原创 文档比对升级版 V1.1
文档比对。目前,文档比对支持的格式,包括: 文本比对 txt 文件比对 docx 文件比对 excel 文件比对 pdf 文件比对
2025-07-16 09:16:40
322
原创 文档图像漂白桌面软件(有下载链接)
一款“文档漂白”桌面软件现已正式完成!为方便大家体验,所有软件均支持离线下载试用,无需联网即可畅快感受核心功能。下载链接已为您备好(见下方),若在使用过程中遇到任何问题、有功能建议或其他想法,欢迎随时与我联系,我会尽快为您解答处理~。关注我,联系我:番石榴AI。
2025-07-02 11:06:18
247
原创 表格识别、OCR识别以及文档比对桌面软件(有下载链接)
表格结构识别软件是一款功能强大的桌面应用程序,能够快速、准确地从图片中提取表格结构,并将其转换为可编辑的文本或格式化的表格数据。链接: https://pan.baidu.com/s/1VLdx-AIh-HdLj4UIb-nkMQ 提取码: nrz2。huggingface下载:https://huggingface.co/jiangnanboy/table_app。huggingface下载:https://huggingface.co/jiangnanboy/ocr_app。比对支持1.文本比对;
2025-07-01 16:31:40
461
原创 对monkeyOCR进行量化
monkeyOCR中的识别模型为3B模型,要想丝滑使用,16G的GPU是必需的,这对于一般用户来说成本还是高了,现在这里打算分别对其量化为8Bit和4Bit的更小模型,将其从7G大小量化4G和2.3G左右,这样8G的GPU即可丝滑使用。以下是量化代码,其中torch=2.5.1,transformers=4.50.0。【关注我,微信公众号:番石榴AI】
2025-06-24 13:47:26
278
2
原创 文档图片智能识别
无论是复杂的多行列表格,还是简单的基础表格,都能准确识别,适用于财务报表处理、数据统计分析等需要处理表格数据的业务场景,大大提高数据录入和处理的效率。版面识别功能接口主要用于分析图片中文档的版面结构,识别出文档中的标题、段落、列表、图表等不同类型的内容区域,并返回各区域的位置、类型等信息。通过该接口,能够快速了解文档的整体布局,为后续的内容处理和分析提供基础,适用于电子文档整理、文档自动化处理等场景。项目分别以python和java实现,可以sdk形式调用或独立离线和在线部署,
2025-06-12 10:34:46
530
原创 实现文档图片漂白小工具
实现文档图片漂白小工具。功能主要有:1.选择单张或多张图片进行漂白;2.可对漂白后的图片进行保存。二.单张图片进行漂白。三.多张图片进行漂白。
2025-05-29 17:23:06
233
原创 企业合同审核系统
实现企业合同审核系统。支持txt、word以及pdf格式文件的合同审核。功能主要有:1.审核功能主要有合同条款提取;审查报告以及准确性检查;2.分析结果可保存为txt、markdown或者html格式,便于查看。七.合同审核综合报告的保存,可保存为txt、markdown以及html格式。一.主界面,可上传txt、word及pdf格式合同文件。六.合同分析的准确性检查。二.合同关键条款提取。
2025-05-20 16:13:17
279
原创 文档比对工具的实现
文档内容比对桌面工具。软件名为“番石榴文档比对工具”。完全离线,无需联网,单机免安装运行。2.txt文件比对;3.docx文件比对;4.excel文件比对。三.文件比对(txt、docx以及excel文件)
2025-05-20 09:06:16
326
原创 OCR文字识别桌面版软件(二)
的升级,实现了界面重构,实现了批量图片的识别以及保存。软件名为“番石榴OCR文字识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果为txt文件。另外图片的预览功能增加了通过鼠标放大缩小以及点击拖动功能。批量上传需要识别的图片,会出现在左侧列表栏中,可以点击右侧。,可以识别所有图片文字,点击左侧相应图片,右侧。发布于 2025-05-16 16:54・江苏。,会将所有图片识别的结果保存为一个txt文件。进行放大缩小以及拖动查看图片。会出现相应的识别结果。
2025-05-16 16:58:32
315
原创 实现OCR文字识别桌面版软件
这2天业余时间,实现了一款桌面版OCR文字识别软件工具,名字是“番石榴OCR识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果可以直接保存为txt文件。
2025-05-16 09:59:23
262
原创 利用deepseek进行智能写作与文章总结
完整项目:https://github.com/jiangnanboy/ai_writer_summary/智能写作:智能总结:需要注册deepseek账号,利用deepseek进行分析与生成web页面利用streamlit,见web_ui.pyImages 智能写作界面:
2025-04-28 22:29:57
275
原创 多智能体架构
有时候,只有一个supervisor来做所有的决定,并决定调用哪个agent,agent可能会开始表现不佳,因为它可能处理太多的事情,并且需要是处理方面的专家。agent开始在工具选择上做出糟糕的决定。我们可以给我们在 Boss上欣赏的人发信息,或者某些社交软件上互发信息,这里的概念是一样的,但是现在有了agent,每个agent都可以和整个集合中的任何其他agent交谈。我们在搭建多agent时,随着需求越来越大,越来越多的工具进入我们的系统,而 agent 拥有多个工具,有时多达 10 多个工具。
2025-04-23 13:36:25
446
番石榴内容审核助手软件:敏感词与隐私信息排查
2026-01-13
番石榴文档比对V2.2.0,支持文本、word、excel、pdf、ofd以及图片内容的比对 并生成详细比对报告,包括相似度,修改的字符数等
2025-11-11
LLM 推理服务器基准测试工具是一款专业的性能测试软件,用于评估大语言模型(LLM)推理服务的性能 软件支持测试外部 API 服务(如 DeepSeek、OpenAI)和本地部署的模型,能够全面评估客
2025-10-29
人工智能基于LLM的智能代理系统设计:多模态工具编排与安全防护机制在复杂决策流程自动化中的应用
2025-10-27
文档图像处理V2.1.1版,支持:漂白(可保留红色印章,圈图保留不想漂白区域功能);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正
2025-09-18
文档智能识别V2.3.1版本;支持:1.ocr;2.表格识别;3.pdf扫描件的ocr和表格识别;4.手写体ocr 优化了软件主界面和增加了一键保存全部结果功能
2025-09-29
文档图像处理V2.1版,支持:漂白(可保留红色印章);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正 。
2025-09-10
智能文档识别V2.2修订版,功能:OCR+表格结构识别,截图识别
2025-08-20
文档图像漂白桌面软件,无需联网,单机运行,可对图像进行漂白,适合合同,公文等 支持可保留红色印章,图像高分辨率等功能
2025-08-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅