tesseract-OCR升级日志

2018-10-29 - V4.0.0
 *增加了基于LSTM的新型神经网络系统,具有较高的准确度。
 * PDF渲染的改进。
 *修复了trainingdata渲染。
 *增加了LSTM模型+ lang模型到101种语言。(tessdata存储库)
 *改进了多页TIFF处理。
 *修复了处理PDF时对二进制图像的损坏。
 *修复了培训过程,允许从识别模型中进行增量培训。
 *将LSTM作为默认引擎,将多维数据集推出。
 *删除了立方体代码。
 *更改了旧版tesseract引擎的OEMode --oem 0,LSTM的--oem 1,两者的--oem 2,默认的--oem 3。
 *避免使用Leptonica调试参数或功能。
 *修正了多语言模式。
 *删除了对VS2010的支持。
 *增加了对CP20AN的VS2015和VS2017的支持。
 *仅为PDF实现了不可见的文本。
 *增加了对Windows的AVX / SSE支持。
 *启用OpenMP支持。
 *参数unlv_tilde_crunching更改为false。
 *杂项修复。
  
  
2017-02-16 - V3.05.00 
 *对hOCR输出进行了一些微调。
 *添加TSV作为另一种可选输出格式。
 *修正了使用AnalyseLayout()方法在3.04.00中引入的ABI中断。
 * text2image工具 - 启用字体中可用的所有OpenType连字。此功能需要Pango 1.38或更高版本。
 *培训工具 - 用tprintf()替换断言并退出(1)。
 *修正了Cygwin的兼容性。
 *改进了多重tiff处理。
 *改进了嵌入式pdf字体(pdf.ttf)。
 *从命令行启用OCR引擎模式选择。
 *将tesseract命令行参数'-psm'更改为'--psm'。
 *将tesseract --help, - version和--list-langs的输出写入stdout而不是stderr。
 *添加了用于方向和脚本检测的新C API,删除了旧的。
 *将最小autoconf版本增加到2.59。
 *删除了死代码。
 *要求Leptonica 1.74或更高。
 *修正了许多编译器警告。
 *修复了内存和资源泄漏问题。
 *修正了“立方体”OCR引擎的一些问题。
 *修正了一些openCL问题。
 *添加了使用CMake构建系统构建Tesseract的选项。
 *实现了CPPAN支持,便于Windows构建。
  
2016-02-17 - V3.04.01 
 *为psm 0添加了OSD渲染器。适用于单页和多页图像。
 *改进tesstrain.sh脚本。
 *简化ScrollView的构建和运行。
 *改进了OS X预览实用程序的PDF输出。
 * INCOMPATIBLE修复hOCR行高信息 - 提交134ebc3。
 *添加了在没有Cube OCR引擎(-DNO_CUBE_BUILD)的情况下构建Tesseract的选项。
 *启用OpenMP支持。
 *许多错误修复。
  
2015-07-11 - V3.04.00 
 * Tesseract开发现在使用Git完成,并在github.com上托管(之前我们使用Subversion作为VCS,使用code.google.com进行托管)。
 * Tesseract现在需要leptonica 1.71或更高版本。
 *删除了对VS 2008的官方支持。
 *增加了对39种附加脚本/语言的支持,包括:amh,asm,aze_cyrl,bod,bos,ceb,cym,dzo,fas,gle,guj,hat,iku,jav,kat,kat_old,kaz,khm,kir, kur,lao,lat,mar,mya,nep,ori,pan,pus,san,sin,srp_latn,syr,tgk,tir,uig,urd,uzb,uzb_cyrl,yid
 *通过对100种语言的广泛测试,对培训系统进行了重大更新。
 * 100多种语言的新培训数据
 *使用PIC编译选项提高了性能。
 *对pdf输出中的隐形字体系统进行重大更改,以提高与外部程序(尤其是ghostscript)的正确性和兼容性。
 *改进了字体识别。
 *改进重度变音语言的布局分析的主要变化:泰语,越南语,卡纳达语,泰卢固语等。
 *修复了移位基线的问题,以便识别可以从布局分析错误中恢复。
 *主要的重构,以提高困难图像的速度,尤其是在运行堆检查器时。
 *将params从全局页面布局移到tesseractclass。
 *改进的单列布局分析。
 *使用tesseract命令行可执行文件将ocr输出设置为多种格式。
 *修复了混合eng + ara脚本的问题。
 *改进了数字中的脚本一致性。
 * control.cpp的主要重构,以启用行识别。
 *添加了tesstrain.sh - 一个主训练脚本。
 *增加了text2image训练工具的能力,只列出可用的字体。
 *增加了text2image加下划线字的功能。
 *提高PDF输出的图像处理效率。
 *为使用'print-parameters'命令行选项列出的每个参数添加了参数说明。
 *为hOCR输出添加了字体信息。
 *启用多页文档的流输入和输出。
 *许多错误修复。
  
2014-02-04 - V3.03(rc1) 
 *添加了新的训练工具text2image来生成box / tif文件对
 文本和truetype字体。
 *添加了对可搜索文本的PDF输出的支持。
 *删除了整个IMAGE类和图像目录中的所有代码。
 * Tesseract可执行文件:支持输出到stdout; 对一个人的支持有限
 来自stdin的页面图像(特别是在Windows上)
 *向API添加了渲染器以允许文档级处理和输出
 文件格式,如hOCR,PDF。
 *字级识别,光束搜索,消除死代码的主要重构。
 *重构分类器,以便更容易添加新分类器。
 *通用特征提取器,允许从灰度中提取特征。
 *改进的子/上标处理。
 *改善基线拟合。
 *为训练工具添加了set_unicharset_properties。
 *许多错误修复。
 *包括更多培训源数据。
  
2012-02-01 - V3.02 
 *将ResultIterator / PageIterator移动到ccmain。
 *在希伯来语/阿拉伯语的输出迭代器中添加了从右到左/ Bidi功能。
 *在布局分析/后OCR中添加了段落检测。
 *修正了训练和过度砍伐过程中不一致的x高度。
 *增加了同步多语言功能。
 *重构顶级单词识别模块。
 *增加了实验方程检测器。
 *改进了输入图像的分辨率处理。
 * Blamer模块已添加用于错误分析。
 *通过从baseapi.h中删除包含来清理外部使用的命名空间。
 *删除了死记忆管理代码。
 *整理控制参数的限制。
 *在分类器和培训中添加了对ShapeTable的支持。
 *重构类修剪器。
 *修正了培训漏洞和随机性。
 *布局分析的主要改进,以更好的图像检测,变音检测,更好的文本行查找,更好的tabstop发现。
 *改进线路检测和删除。
 *为CJK增加了固定间距斩波器。
 *在WERD_CHOICE中添加了UNICHARSET,使多语言处理更加容易。
 *修复了内部缩放图像的问题。
 *在tr文件中添加了页面和bbox字符串,以更好地识别训练数据的来源。
 *修复印地语Shiroreka分离器。
 *增加了字母bigram校正。
 *减少堆栈内存消耗并消除一些丑陋的typedef。
 *添加了新的统一分类器API。
 *添加了新的训练错误计数器。
 *修复了dawg阅读器中的endian bug。
 *许多其他修复,包括切碎机发现印章的方式和大纲的混乱。
  
2010-11-29 - V3.01 
 *删除* LISTIZED类上的旧/死序列化/反序列化方法。
 *完全重写DENORM以更好地封装操作和制作
 有可能从图像中提取特征。
 *线程安全!将所有关键全局变量和静态变为适当类的成员。Tesseract现在是线程安全的(多个实例可以在多个线程中并行使用。),但有一些控制参数仍然是全局的,并影响所有线程。
 *添加了Cube,一种新的阿拉伯语识别器。对于其他语言,立方体也可以与普通Tesseract结合使用,并以(更低)速度为代价提高精度。*目前还没有Cube培训模块。*
 *`Init`中的`OcrEngineMode`替换`AccuracyVSpeed`来控制立方体。
 *极大地改进了分段搜索,从而提高了准确性和速度,特别是对于中文。
 *添加了`PageIterator`和`ResultIterator`作为从Tesseract中获取完整结果的更简洁方法,这些方法目前不是由任何`TessBaseAPI :: Get *`方法提供的。所有其他方法,例如特别是`ETEXT_STRUCT`都已弃用,将来会被删除。
 * ApplyBoxes完全重写,使训练更容易。它现在可以处理触摸/重叠训练字符,并且新的boxfile格式允许使用单词框而不是字符框,但是要使用你必须已经用字符框提升语言。受训数据的“循环依赖”。
 *自动定位和脚本检测添加到页面布局分析。
 *删除*批次*死代码。
 * Fixxht模块替换为可扩展的数据驱动模块。
 *输出字体特征精度提高。
 *删除了每个分类的双重转换。
 *将最旧的结构升级为类,并弃用PBLOB。
 *删除了非确定性基线拟合。
 *为中文添加了固定长度的dawgs。
 *改进了垂直文本的处理。
 *领导者点的处理得到改善。
 *表检测大大改善。
 *修正了几个内存泄漏问题。
 *修正输出文本上的字体标签。(不完美,但比以前好多了。)
 *清理和更多错误修复
 *印地语的特殊待遇。
 *支持使用适用于Windows 7的Microsoft Windows SDK构建VS2010(感谢Michael Lutz)
  
2010-09-21 - V3.00 
 *螺纹安全准备:
 *将TessBaseAPI方法更改为非静态方法
 *为保存实例数据的目录创建了一个类层次结构,
 并开始将代码移入类中。
 *将阈值代码移动到单独的类。
 *增加了主要的新页面布局分析模块。
 *增加了HOCR输出(问题221,263:感谢amkryukov)。
 *添加Leptonica作为主要图像I / O和处理。目前可选,
 但在将来版本中,与Leptonica的链接将是强制性的。
 *重写歧义表以允许明确的替换
 fix_quotes。
 *添加了TessdataManager将数据文件合并到一个文件中。
 *删除了一些死代码。
 *不再支持VC ++ 6。它无法应对模板的使用。
 *添加了更多语言。
 *大多数函数头注释的Doxygenation。
 *添加了手册页。
 *添加了bash完成脚本(问题247:感谢neskiem)
 *修正阈值处理中的整数概述(问题366:感谢Cyanide.Drake)
 *添加丹麦Fraktur支持(问题300,360:谢谢
 dsl602230@vip.cybercity.dk)
 *修复文件指针泄漏(问题359,感谢yukihiro.nakadaira)
 *使用用户词修复错误(问题345:感谢max.markin)
 *修复tablefind.cpp中的内存泄漏(问题342,感谢zdravco)
 *修复由于双重fclose导致的段错误(问题320,多亏了南方)
 *修复了automake错误(问题318,多亏了ichanjz)
 *修复fileFormatIsTiff()上的Win32崩溃(问题304,316,317,330,347,
 349,352:感谢nguyenq87,max.markin,zdenop)
 *修复了VC ++较新(更严格)版本中的许多错误(问题
 301,等等)
  
2009-06-30 - V2.04 
 *集成的错误修复和补丁以及misc更改的可移植性。
 *集成一个补丁来删除一些“访问”宏。
 *消除了观众对lua的依赖,加快了速度
 大幅提升。
 *修正了查看器,使其编译并正常运行!
 *具体解决问题:1,63,67,71,76,81,82,106,111,
 112,128,129,130​​,133,135,142,143,145,147,153,154,160,
 165,170,175,177,187,192,195,199,201,205,209,108,169
  
2008-04-22 - V2.03 
 *修复了2.02中引入的崩溃问题。
 *修正了分发中缺少tessembedded.cpp的问题。
 *增加了leptonica头文件的测试和lib的条件测试。
  
2008-04-21 - V2.02(再次) 
 *修复了jpeg库(INT32)的命名空间冲突。
 * Windows的可移植性修复程序用于新代码。
 *更新autoconf系统以获取新代码。
  
2008-01-23 - V2.02 
 *集群,培训和分类器的改进。
 *大字符集的主要国际化改进
 *语言,例如卡纳达语。
 *删除了一些编译器警告。
 *为训练和跑步增加了多重tiff支持。
 *更新了图形输出,以便与新的基于java的查看器进行对话。
 *添加了保存n个最佳列表的功能。
 *为更多文件类型添加了leptonica支持。
 *改进了Init / End以确保安全。
 *减少字典的内存使用。
 *为TessBaseAPI添加了一些新的API。
  
2007-08-27 - V2.01 
 *修正了盒式文件阅读器的UTF8输入问题。
 *修复了dawg代码中的各种无限循环和崩溃。
 *从host.h中删除了config_auto.h的包含。
 *为unicharset_extractor添加了自动wctype编码。
 *修正了dawg表太满错误。
 *从tarball中删除了svn文件。
 *为tessdll添加了新功能。
 *分类结果中的最大utf8字符串增加到8。
  
2007-07-02 - V2.00 
 *将内部字符处理转换为UTF8。
 *训练有6种语言。
 *添加了unicharset_extractor,wordlist2dawg。
 *添加了boxfile创建模式。
 *增加了UNLV回归测试能力。
 *修复了版权和注册符号的问题。
 *修复了外部“C”声明问题。
  
2007-05-15 - V1.04 
 *为Windows添加了dll导出。
 *修正与stl等名称冲突
 *做了一些初步的改变准备好unicodeization。
 *在unicodeization期间发现了几个错误修复。
  
2007-02-02 - V1.03 
 *增加了mtraraining和cntraining。
 *添加了baseapi,具有灰度和颜色的自适应阈值。
 *修复了许多内存泄漏问题。
 *修正了一些错误,包括缺乏自适应分类器。
 *添加了ifdef以消除图形代码并添加嵌入式平台支持。
 *合并了几个补丁,包括64位版本,Mac版本。
 *微小的准确性改进。
  
2006-10-04 - V1.02 
 *删除了对阿司匹林的依赖。
 *修复了一些缺少的Apache许可证标题。
 *删除了$ log。
  
2006-09-07 - V1.01。 
 *为VC ++添加了mfcpch.cpp和getopt.cpp。
 *修复了灰度图像和没有libtiff的问题。
 *停止调试窗口用于使用输出。
 *修复了big-endian架构的inttemp负载。
 *修正了一些Mac编译问题。
  
 2006-06-16 - 开源Tesseract的V1.0签到。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Tesseract-OCR是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以用于将图像中的文字转换为可编辑的文本。下面是安装Tesseract-OCR的步骤: 1. 首先,你需要下载并安装Tesseract-OCR引擎。你可以从Tesseract的官方GitHub页面(https://github.com/tesseract-ocr/tesseract)上找到最新的版本。根据你的操作系统,选择相应的安装包进行下载。 2. 安装完成后,将Tesseract-OCR添加到系统的环境变量中。这样你就可以在任何位置使用Tesseract命令。 3. 接下来,你需要下载训练数据文件(语言数据)。Tesseract支持多种语言,你可以从Tesseract的官方GitHub页面上找到相应的语言数据文件。下载完成后,将其放置在合适的位置。 4. 现在,你可以在命令行中使用Tesseract命令来进行OCR识别了。例如,你可以使用以下命令来识别一张图片中的文字: ``` tesseract image.png output -l eng ``` 这个命令将会将名为image.png的图片中的文字识别并保存到名为output.txt的文本文件中。`-l eng`参数指定了使用英语语言进行识别。 5. 如果你想在编程中使用Tesseract-OCR,可以选择适合你编程语言的Tesseract库或API。Tesseract提供了多种语言的接口,如Python、Java、C++等。你可以在Tesseract的官方文档中找到相应的使用方法和示例代码。 希望以上信息对你有所帮助!如果你还有其他问题,请继续提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值