tesseract-OCR升级日志

最新推荐文章于 2024-07-08 09:38:15 发布

LKK_2136

最新推荐文章于 2024-07-08 09:38:15 发布

阅读量905

点赞数 2

文章标签： tesseract

2018-10-29 - V4.0.0
	*增加了基于LSTM的新型神经网络系统，具有较高的准确度。
	* PDF渲染的改进。
	*修复了trainingdata渲染。
	*增加了LSTM模型+ lang模型到101种语言。（tessdata存储库）
	*改进了多页TIFF处理。
	*修复了处理PDF时对二进制图像的损坏。
	*修复了培训过程，允许从识别模型中进行增量培训。
	*将LSTM作为默认引擎，将多维数据集推出。
	*删除了立方体代码。
	*更改了旧版tesseract引擎的OEMode --oem 0，LSTM的--oem 1，两者的--oem 2，默认的--oem 3。
	*避免使用Leptonica调试参数或功能。
	*修正了多语言模式。
	*删除了对VS2010的支持。
	*增加了对CP20AN的VS2015和VS2017的支持。
	*仅为PDF实现了不可见的文本。
	*增加了对Windows的AVX / SSE支持。
	*启用OpenMP支持。
	*参数unlv_tilde_crunching更改为false。
	*杂项修复。


2017-02-16 - V3.05.00
	*对hOCR输出进行了一些微调。
	*添加TSV作为另一种可选输出格式。
	*修正了使用AnalyseLayout（）方法在3.04.00中引入的ABI中断。
	* text2image工具 - 启用字体中可用的所有OpenType连字。此功能需要Pango 1.38或更高版本。
	*培训工具 - 用tprintf（）替换断言并退出（1）。
	*修正了Cygwin的兼容性。
	*改进了多重tiff处理。
	*改进了嵌入式pdf字体（pdf.ttf）。
	*从命令行启用OCR引擎模式选择。
	*将tesseract命令行参数'-psm'更改为'--psm'。
	*将tesseract --help， - version和--list-langs的输出写入stdout而不是stderr。
	*添加了用于方向和脚本检测的新C API，删除了旧的。
	*将最小autoconf版本增加到2.59。
	*删除了死代码。
	*要求Leptonica 1.74或更高。
	*修正了许多编译器警告。
	*修复了内存和资源泄漏问题。
	*修正了“立方体”OCR引擎的一些问题。
	*修正了一些openCL问题。
	*添加了使用CMake构建系统构建Tesseract的选项。
	*实现了CPPAN支持，便于Windows构建。

2016-02-17 - V3.04.01
	*为psm 0添加了OSD渲染器。适用于单页和多页图像。
	*改进tesstrain.sh脚本。
	*简化ScrollView的构建和运行。
	*改进了OS X预览实用程序的PDF输出。
	* INCOMPATIBLE修复hOCR行高信息 - 提交134ebc3。
	*添加了在没有Cube OCR引擎（-DNO_CUBE_BUILD）的情况下构建Tesseract的选项。
	*启用OpenMP支持。
	*许多错误修复。

2015-07-11 - V3.04.00
	* Tesseract开发现在使用Git完成，并在github.com上托管（之前我们使用Subversion作为VCS，使用code.google.com进行托管）。
	* Tesseract现在需要leptonica 1.71或更高版本。
	*删除了对VS 2008的官方支持。
	*增加了对39种附加脚本/语言的支持，包括：amh，asm，aze_cyrl，bod，bos，ceb，cym，dzo，fas，gle，guj，hat，iku，jav，kat，kat_old，kaz，khm，kir， kur，lao，lat，mar，mya，nep，ori，pan，pus，san，sin，srp_latn，syr，tgk，tir，uig，urd，uzb，uzb_cyrl，yid
	*通过对100种语言的广泛测试，对培训系统进行了重大更新。
	* 100多种语言的新培训数据
	*使用PIC编译选项提高了性能。
	*对pdf输出中的隐形字体系统进行重大更改，以提高与外部程序（尤其是ghostscript）的正确性和兼容性。
	*改进了字体识别。
	*改进重度变音语言的布局分析的主要变化：泰语，越南语，卡纳达语，泰卢固语等。
	*修复了移位基线的问题，以便识别可以从布局分析错误中恢复。
	*主要的重构，以提高困难图像的速度，尤其是在运行堆检查器时。
	*将params从全局页面布局移到tesseractclass。
	*改进的单列布局分析。
	*使用tesseract命令行可执行文件将ocr输出设置为多种格式。
	*修复了混合eng + ara脚本的问题。
	*改进了数字中的脚本一致性。
	* control.cpp的主要重构，以启用行识别。
	*添加了tesstrain.sh - 一个主训练脚本。
	*增加了text2image训练工具的能力，只列出可用的字体。
	*增加了text2image加下划线字的功能。
	*提高PDF输出的图像处理效率。
	*为使用'print-parameters'命令行选项列出的每个参数添加了参数说明。
	*为hOCR输出添加了字体信息。
	*启用多页文档的流输入和输出。
	*许多错误修复。

2014-02-04 - V3.03（rc1）
	*添加了新的训练工具text2image来生成box / tif文件对
	文本和truetype字体。
	*添加了对可搜索文本的PDF输出的支持。
	*删除了整个IMAGE类和图像目录中的所有代码。
	* Tesseract可执行文件：支持输出到stdout; 对一个人的支持有限
	来自stdin的页面图像（特别是在Windows上）
	*向API添加了渲染器以允许文档级处理和输出
	文件格式，如hOCR，PDF。
	*字级识别，光束搜索，消除死代码的主要重构。
	*重构分类器，以便更容易添加新分类器。
	*通用特征提取器，允许从灰度中提取特征。
	*改进的子/上标处理。
	*改善基线拟合。
	*为训练工具添加了set_unicharset_properties。
	*许多错误修复。
	*包括更多培训源数据。

2012-02-01 - V3.02
	*将ResultIterator / PageIterator移动到ccmain。
	*在希伯来语/阿拉伯语的输出迭代器中添加了从右到左/ Bidi功能。
	*在布局分析/后OCR中添加了段落检测。
	*修正了训练和过度砍伐过程中不一致的x高度。
	*增加了同步多语言功能。
	*重构顶级单词识别模块。
	*增加了实验方程检测器。
	*改进了输入图像的分辨率处理。
	* Blamer模块已添加用于错误分析。
	*通过从baseapi.h中删除包含来清理外部使用的命名空间。
	*删除了死记忆管理代码。
	*整理控制参数的限制。
	*在分类器和培训中添加了对ShapeTable的支持。
	*重构类修剪器。
	*修正了培训漏洞和随机性。
	*布局分析的主要改进，以更好的图像检测，变音检测，更好的文本行查找，更好的tabstop发现。
	*改进线路检测和删除。
	*为CJK增加了固定间距斩波器。
	*在WERD_CHOICE中添加了UNICHARSET，使多语言处理更加容易。
	*修复了内部缩放图像的问题。
	*在tr文件中添加了页面和bbox字符串，以更好地识别训练数据的来源。
	*修复印地语Shiroreka分离器。
	*增加了字母bigram校正。
	*减少堆栈内存消耗并消除一些丑陋的typedef。
	*添加了新的统一分类器API。
	*添加了新的训练错误计数器。
	*修复了dawg阅读器中的endian bug。
	*许多其他修复，包括切碎机发现印章的方式和大纲的混乱。

2010-11-29 - V3.01
	删除 LISTIZED类上的旧/死序列化/反序列化方法。
	*完全重写DENORM以更好地封装操作和制作
	有可能从图像中提取特征。
	*线程安全！将所有关键全局变量和静态变为适当类的成员。Tesseract现在是线程安全的（多个实例可以在多个线程中并行使用。），但有一些控制参数仍然是全局的，并影响所有线程。
	添加了Cube，一种新的阿拉伯语识别器。对于其他语言，立方体也可以与普通Tesseract结合使用，并以（更低）速度为代价提高精度。目前还没有Cube培训模块。*
	*`Init`中的`OcrEngineMode`替换`AccuracyVSpeed`来控制立方体。
	*极大地改进了分段搜索，从而提高了准确性和速度，特别是对于中文。
	添加了`PageIterator`和`ResultIterator`作为从Tesseract中获取完整结果的更简洁方法，这些方法目前不是由任何`TessBaseAPI :: Get `方法提供的。所有其他方法，例如特别是`ETEXT_STRUCT`都已弃用，将来会被删除。
	* ApplyBoxes完全重写，使训练更容易。它现在可以处理触摸/重叠训练字符，并且新的boxfile格式允许使用单词框而不是字符框，但是要使用你必须已经用字符框提升语言。受训数据的“循环依赖”。
	*自动定位和脚本检测添加到页面布局分析。
	删除批次*死代码。
	* Fixxht模块替换为可扩展的数据驱动模块。
	*输出字体特征精度提高。
	*删除了每个分类的双重转换。
	*将最旧的结构升级为类，并弃用PBLOB。
	*删除了非确定性基线拟合。
	*为中文添加了固定长度的dawgs。
	*改进了垂直文本的处理。
	*领导者点的处理得到改善。
	*表检测大大改善。
	*修正了几个内存泄漏问题。
	*修正输出文本上的字体标签。（不完美，但比以前好多了。）
	*清理和更多错误修复
	*印地语的特殊待遇。
	*支持使用适用于Windows 7的Microsoft Windows SDK构建VS2010（感谢Michael Lutz）

2010-09-21 - V3.00
	*螺纹安全准备：
	*将TessBaseAPI方法更改为非静态方法
	*为保存实例数据的目录创建了一个类层次结构，
	并开始将代码移入类中。
	*将阈值代码移动到单独的类。
	*增加了主要的新页面布局分析模块。
	*增加了HOCR输出（问题221,263：感谢amkryukov）。
	*添加Leptonica作为主要图像I / O和处理。目前可选，
	但在将来版本中，与Leptonica的链接将是强制性的。
	*重写歧义表以允许明确的替换
	fix_quotes。
	*添加了TessdataManager将数据文件合并到一个文件中。
	*删除了一些死代码。
	*不再支持VC ++ 6。它无法应对模板的使用。
	*添加了更多语言。
	*大多数函数头注释的Doxygenation。
	*添加了手册页。
	*添加了bash完成脚本（问题247：感谢neskiem）
	*修正阈值处理中的整数概述（问题366：感谢Cyanide.Drake）
	*添加丹麦Fraktur支持（问题300,360：谢谢
	dsl602230@vip.cybercity.dk）
	*修复文件指针泄漏（问题359，感谢yukihiro.nakadaira）
	*使用用户词修复错误（问题345：感谢max.markin）
	*修复tablefind.cpp中的内存泄漏（问题342，感谢zdravco）
	*修复由于双重fclose导致的段错误（问题320，多亏了南方）
	*修复了automake错误（问题318，多亏了ichanjz）
	*修复fileFormatIsTiff（）上的Win32崩溃（问题304,316,317,330,347，
	349,352：感谢nguyenq87，max.markin，zdenop）
	*修复了VC ++较新（更严格）版本中的许多错误（问题
	301，等等）

2009-06-30 - V2.04
	*集成的错误修复和补丁以及misc更改的可移植性。
	*集成一个补丁来删除一些“访问”宏。
	*消除了观众对lua的依赖，加快了速度
	大幅提升。
	*修正了查看器，使其编译并正常运行！
	*具体解决问题：1,63,67,71,76,81,82,106,111，
	112,128,129,130,133,135,142,143,145,147,153,154,160，
	165,170,175,177,187,192,195,199,201,205,209,108,169

2008-04-22 - V2.03
	*修复了2.02中引入的崩溃问题。
	*修正了分发中缺少tessembedded.cpp的问题。
	*增加了leptonica头文件的测试和lib的条件测试。

2008-04-21 - V2.02（再次）
	*修复了jpeg库（INT32）的命名空间冲突。
	* Windows的可移植性修复程序用于新代码。
	*更新autoconf系统以获取新代码。

2008-01-23 - V2.02
	*集群，培训和分类器的改进。
	*大字符集的主要国际化改进
	*语言，例如卡纳达语。
	*删除了一些编译器警告。
	*为训练和跑步增加了多重tiff支持。
	*更新了图形输出，以便与新的基于java的查看器进行对话。
	*添加了保存n个最佳列表的功能。
	*为更多文件类型添加了leptonica支持。
	*改进了Init / End以确保安全。
	*减少字典的内存使用。
	*为TessBaseAPI添加了一些新的API。

2007-08-27 - V2.01
	*修正了盒式文件阅读器的UTF8输入问题。
	*修复了dawg代码中的各种无限循环和崩溃。
	*从host.h中删除了config_auto.h的包含。
	*为unicharset_extractor添加了自动wctype编码。
	*修正了dawg表太满错误。
	*从tarball中删除了svn文件。
	*为tessdll添加了新功能。
	*分类结果中的最大utf8字符串增加到8。

2007-07-02 - V2.00
	*将内部字符处理转换为UTF8。
	*训练有6种语言。
	*添加了unicharset_extractor，wordlist2dawg。
	*添加了boxfile创建模式。
	*增加了UNLV回归测试能力。
	*修复了版权和注册符号的问题。
	*修复了外部“C”声明问题。

2007-05-15 - V1.04
	*为Windows添加了dll导出。
	*修正与stl等名称冲突
	*做了一些初步的改变准备好unicodeization。
	*在unicodeization期间发现了几个错误修复。

2007-02-02 - V1.03
	*增加了mtraraining和cntraining。
	*添加了baseapi，具有灰度和颜色的自适应阈值。
	*修复了许多内存泄漏问题。
	*修正了一些错误，包括缺乏自适应分类器。
	*添加了ifdef以消除图形代码并添加嵌入式平台支持。
	*合并了几个补丁，包括64位版本，Mac版本。
	*微小的准确性改进。

2006-10-04 - V1.02
	*删除了对阿司匹林的依赖。
	*修复了一些缺少的Apache许可证标题。
	*删除了$ log。

2006-09-07 - V1.01。
	*为VC ++添加了mfcpch.cpp和getopt.cpp。
	*修复了灰度图像和没有libtiff的问题。
	*停止调试窗口用于使用输出。
	*修复了big-endian架构的inttemp负载。
	*修正了一些Mac编译问题。

	2006-06-16 - 开源Tesseract的V1.0签到。

LKK_2136

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tesseract-OCR升级日志

2018-10-29 - V4.0.0 *增加了基于LSTM的新型神经网络系统，具有较高的准确度。 * PDF渲染的改进。 *修复了trainingdata渲染。 *增加了LSTM模型+ lang模型到101种语言。（tessdata存储库） *改进了多页TIFF处理。 *修复了处理PDF时对二进制图像的损坏。 ...
复制链接

扫一扫