自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (8)
  • 收藏
  • 关注

原创 图片批量OCR识别--支持各种图片

现在有各种图片识别,但支持内网环境,支持批量处理,识别率高速度快,且支持TIFF,PSD等多种图片格式的OCR识别软件好少,小编给大家推荐图片OCR批量识别工具。此软件自带识别引擎,不需要其他识别引擎支持。操作非常简单,选中文件夹自动加载全部图片文件, 点击按键即可完成识别。识别率很高在96%以上,速度也非常快,300个图片型在2分钟内完成识别并生成新双层PDF文件,也可以输出为文本,HOCR格式。64位windows操作系统上一键安装,没有其他环境要求。 下载地址如下: https://www.g

2022-05-05 17:40:19 2872

原创 批量识别PDF文件(图片类型)中的文字

小编为大家提供一款完全免费的基于tesseract5.0 OCR版本的PDF文件(图片类型)批量识别工具,此工具的用途是批量把PDF转换成文本文件,也可以转换为双层PDF(原来PDF在前面,后面加一层文字层)。此软件完全免费,自带识别引擎,不需要其他识别引擎支持,可以在局域网等内网环境。操作非常简单,选中文件夹自动加载全部pdf文件,或者选中某几个PDF文件,点击按键即可完成识别。识别率很高在96%以上,速度也非常快,300页图片型PDF文件在3分钟内完成识别并生成新双层...

2022-04-16 20:17:39 2846

原创 tesseract ocr 5.0 Api调用,delphi源码实现--识别率超高速度快

笔者过去使用tesseract-ocr 4.0,一直被识别速度慢和识别率底的问题困扰。最近更新使用了64位的tesseract5.0 dll后识别速度大幅提升,以下是调用DLL的源码和程序说明,供大家参考。一:下载tesseract DLL和中文字库方式1,到tesseract官网下载dll和字库,tesseract官网提供源码和编译好的DLL,建议直接使用编译好的DLL,方便省时。以下是64位DLL安装包下载地址:https://github.com/UB-Mannheim/tesseract/w

2022-03-28 15:30:17 5265 2

原创 Windows+GCC得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

Graccvs组件智能分析提取其他各种文件中文本,为自然语言信息检索,机器学习等高端技术提供底层支持的技术组件,是Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。同时也可以为安全网关,邮件内容监控,内网安全等系统提供文件搜索及监控服务底层技术支持。组件支持常见各种文件格式”.pdf", ".doc", ".odt", ".docx", ".dotm", ".docm", ".wps".

2022-01-26 10:49:06 3013

原创 Linux + JAVA得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

在文件数据挖掘处理技术中,如何从文本数据中抽取有价值的信息和知识是一个重要的数据挖据分支,是机器学习、自然语言处理、数理统计的基础技术之一,是信息检索,机器学习,AI智能等高端技术的的底层技术支持之一。Graccvs组件智能分析提取其他各种文件中文本,为自然语言信息检索,机器学习等高端技术提供底层支持的技术组件,是Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。同时也可以为安全网关,邮

2022-01-24 17:46:23 344

原创 Linux 平台下如何使用GCC得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

在文件数据挖掘处理技术中,如何从文本数据中抽取有价值的信息和知识是一个重要的数据挖据分支,是机器学习、自然语言处理、数理统计的基础技术之一,是信息检索,机器学习,AI智能等高端技术的的底层技术支持之一。Graccvs组件智能分析提取其他各种文件中文本,为自然语言信息检索,机器学习等高端技术提供底层支持的技术组件,是Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。同时也可以为安全网关,邮

2022-01-24 17:38:53 296

原创 苹果IOS平台如何得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

“Graccvs文件正文提取开发组件”可以为Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。可以为安全网关,邮件内容监控,内网安全等系统提供文件搜索及监控服务底层技术支持。

2022-01-24 15:54:19 3029

原创 Android系统中如何得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

在Android平台下,办公系统,ERP,CRM等开发过程中,需要对Doc, docx, xls, xlsx, ppt, ppts, pdf, html等各种格式的文件内容进行搜索和查找,实现这些格式文件正文分析提取是一件工作量巨大的工程。现在给大家推荐一款免费的开发组件Graccvs,完成文件正文提取分析,组件支持格式多,调用简单方便,正文提取速度快。组件是以AAR格式提供的,这里是下载地址模板OCR识别工具--Graccvs文件正文提取开发组件--软件下载 (gaya-soft.cn)。 同时网站提

2022-01-23 19:31:59 2155

原创 Delphi文件正文提取开发组件--文件内容搜索的高效工具

Graccvs文件正文提取开发组件支持各种文件提取正文,为Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,为OA,ERP,CRM系统使用文件提供文件正文使用和搜索,支持常见各种文件格式”.pdf", ".doc", ".odt", ".docx", ".dotm", ".docm", ".wps",".xls", ".xlsx", ".xlsm", ".xltm", ".et", ".ppt", ".pptx",".potm", ".pptm", ".ppsm"..

2022-01-23 09:06:19 490

原创 如何批量OCR识别各类票据关键信息,导出为结构化格式数据

扫描工厂在处理大量银行票据,合同、工程图纸过程中。现在的OCR识别全部的文字,这样不但产生大量的无用数据,而且速度慢效率底。如何批量识别票据的有效机构化数据供其他系统使用,或者生成JSON数据、文本数据,可以搜索的双层PDF是用户关注的问题。现在给大家推荐一款免费的模板OCR识别软件,用户可以自己定义编辑模板,用鼠标选出有效的数据区间。模板操作完全使用鼠标,简单拖拽缩放,非常方便。然后批量导入同样格式的图片、PDF文件、或者批量扫描票据,套用模板,批量识别有效数据。软件识别的结果都可以二

2022-01-21 10:56:51 1819

原创 Graccvs文件正文提取开发组件--文件内容搜索的利器

Graccvs组件为Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。可以为安全网关,邮件内容监控,内网安全等系统提供文件搜索及监控服务底层技术支持。 本组件全部用go语言实现,不依赖外部工具,效率高,安全性非常好。可以直接在操作系统上开发使用,不要求JAVA等其他环境支持,而且从设计上避免了环境依赖或者解析器框架带来的占用CPU过高和安全性问题。 本组件提...

2022-01-20 17:33:33 497

原创 VC语言文件正文分析器--支持格式常用文件格式

Graccvs文件正文提取开发组件支持各种文件提取正文,为OA,ERP,CRM系统使用文件提供文件正文使用和搜索,支持常见各种文件格式”.pdf", ".doc", ".odt", ".docx", ".dotm", ".docm", ".wps",".xls", ".xlsx", ".xlsm", ".xltm", ".et", ".ppt", ".pptx",".potm", ".pptm", ".ppsm", ".dps", ".ofd"(电子发票版式文件), ".rtf",".html", "..

2022-01-19 20:40:54 8664

原创 delphi使用TDelphiZXingQRCode生成二维码条形码

使用TDelphiZXingQRCode控件生成二维码条形码并保存到JPG图片中

2022-01-19 17:00:08 2644

原创 OCR如何识别PDF图片中的文字

很多PDF扫描文件,虽然它看上去与由Word文档创建的普通PDF文件并无差别,但实际上,当您扫描转换文件时,整个内容是被视为图片。该PDF文档中的文字内容是不能被复制的,文件中的内容也不能被搜索到,如何提取识别这些PDF图片中的文字共搜索使用,或者导出可用数据不是很方便。现在有些网站提供类似的服务,但上传的文件存在着被泄露的可能性,同时很多情况下机密的文件也不能上传到网上。我给大家提供一个可以内网使用的,完全免费的OCR工具,可以识别PDF文件中的全部文字。还可以套用模板,用模板识别主要信息,效率高

2022-01-19 15:44:01 2921

原创 PPT提取文字C代码实现

以下是C语言实现提取PPT文本的代码头文件 file_read.h#include "stdafx.h"//Appendix B// Sample code to read the text out of a PowerPoint '97 presentation.#include <ole2.h>#include <stdio.h>//#include <time.h>// Stolen from app\sertypes.h// sys

2022-01-19 13:51:39 985

原创 JAVA文件搜索过程中如何得到各种文件内容(office文件,PDF,邮件,mht,思维导图等)

Graccvs 正文解析器全部用go语言实现,不依赖外部工具,效率高,安全性非常好。可以直接在操作系统上开发使用,不要求JAVA等其他环境支持,而且从设计上避免了环境依赖或者解析器框架带来的占用CPU过高和安全性问题。

2022-01-19 12:28:57 647

原创 C# 文件搜索过程中如何提取office文件,wps,pdf,html,eml等格式的文件正文

各种常见文件提取文件正文,为Lucene.net等全文检索工具提供文件摘要及搜索前置服务

2022-01-16 18:09:11 1128

GCC提取docx,doc,xls,xlsx,ppt,ppts,pdf,html,eml,rtf,htm,思维导图等文件内容文本

按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 帮助文件 “*.chm" O: 压缩文件 ".zip", 注:默认提前5个文件

2022-01-21

VC提取docx,doc,xls,xlsx,ppt,ppts,pdf,html,eml,rtf,htm,思维导图等文件内容文本

按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 帮助文件 “*.chm" O: 压缩文件 ".zip", 注:默认提前5个文件

2022-01-21

Delphi提取docx,doc,xls,xlsx,ppt,ppts,pdf,eml,html,等文件内容文本

支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 帮助文件 “*.chm",注:此格式仅限Windows平台 O: 压缩文件 ".zip", 注:默认提取前5个文件

2022-01-21

linux平台GCC提取docx,doc,xls,xlsx,ppt,ppts,pdf,eml,html等文件内容文本

按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 压缩文件 ".zip", 注:默认提取前5个文件

2022-01-21

linux平台使用JAVA提取各种文件(office, pdf, eml, rtf, html, wps)内容文本

按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 O: 压缩文件 ".zip"

2022-01-21

Android(aar库)提取docx,doc,xls,xlsx,ppt,ppts,pdf,eml,html等文件内容文本

支持文件类型 A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 帮助文件 “*.chm",注:此格式仅限Windows平台 O: 压缩文件 ".zip", 注:默认提取前5个文件

2022-01-21

C#提取docx,doc,xls,xlsx,ppt,ppts,pdf,html,eml,rtf,htm,思维导图等文件内容文本

支持文件类型 A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 帮助文件 “*.chm",注:此格式仅限Windows平台 O: 压缩文件 ".zip", 注:默认提取前5个文件

2022-01-21

苹果ios(objective-c)处理如果得到各种文件的内容文本

1:xcframework动态库及xcode+objective-c调用示例 2:可以提取的文件类型 A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind"

2022-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除