古籍数字化平台中的OCR：这个平台更精准

最新推荐文章于 2024-07-05 19:26:26 发布

置顶 uuleaf

最新推荐文章于 2024-07-05 19:26:26 发布

阅读量1.2k

点赞数 27

分类专栏：文化数字化文章标签： ocr 古籍OCR 古籍数字化

本文链接：https://blog.csdn.net/uuleaf/article/details/137921743

版权

文化数字化专栏收录该内容

5 篇文章 2 订阅

订阅专栏

云聪研发团队开发的尖端OCR系统致力于提升古籍数字化校编效率，通过高精度识别、复杂版面分析及特殊布局处理，保护珍贵文化遗产。系统具备识别多语言、复杂版面和生僻字的能力，展示了科技与文化融合的创新成果。

摘要由CSDN通过智能技术生成

在浩瀚的历史长河中，古籍作为中华民族的文化瑰宝，承载着无数先人的智慧与心血。然而，由于岁月侵蚀、保存不当等多种原因，许多珍贵的古籍面临损坏、失传的危机。为了守护这些无价之宝，云聪研发团队倾力打造了一款尖端的OCR（光学字符识别）系统，旨在提升古籍数字化校编的效率，让千年文化得以传承。

在研发这款OCR系统的过程中，云聪博士团队深知每一份古籍的珍贵与独特性。他们克服了技术上的种种挑战，力求在确保准确识别的同时，最大化地保留古籍的原貌和独特风格。正是这份执着与坚守，让云聪OCR系统在业界脱颖而出，成为古籍数字化校编领域的翘楚。

本模块支持私有化部署，API调用。

一、技术核心

1、识别核心

OCR精校工厂内置云聪科技最新研发的高性能文字识别引擎，其中《国标GB2312 汉字编码字符集》常用汉字6,763个，平均识别率达99.9%以上，《国标GB18030-2000中文编码字符集》繁体异体汉字27,533个，中文汉字平均识别率达95%以上。另外多语言版本英文、日文、韩文的识别率居国内主流水平。

2、逐字横排校对

云聪OCR精校工厂支持将竖版繁体文字转换为横版繁体文字，单个文字上下一对一进行逐字校对，支持全程快捷键键盘操作，符合现在的阅读习惯，大大提高校对效率。

3、复杂版面分析

云聪OCR精校工厂的内置复杂版面识别引擎，凭借其卓越的AI技术，对上下栏古籍、批注栏、竖版报纸以及简体中文报纸等各类版面，都能进行精准的版面分析。

4、阅读顺序

云聪OCR精校工厂拥有强大的内置版面阅读顺序引擎，能够精准解析古籍筒子页、半筒子页、三栏稿本、上下栏古籍、批注栏等多种复杂格式。同时，对于竖版报纸和简体中文报纸等复杂版面，也能进行有效的阅读顺序分析。

5、集字校对(内测中)

在云聪OCR精校企业版中，利用集字校对功能，多篇文档的相同字符图像得以集中展示，一目了然。这一功能大大减轻了校对人员的视觉负担，避免陷入繁琐的上下文判断，从而提高校对效率和准确性。

二、识别因素

云聪OCR的识别泛化能力能够适应大部分页面歪斜、透光、透字的情况，但是OCR识别效果好坏，关键看图像清晰度。简单来说，图像越清楚，OCR识别的准确率就越高。具体影响因素有：

1、分辨率：扫描时，图像的分辨率最好设置在DPI 300或以上，这样能保证OCR识别的效果。

2、亮度、对比度：页面亮度、对比度要适中，太亮、太暗、光斑、阴影等都可能影响OCR的准确率。

3、颜色：平台可以识别全彩图、灰度图、黑白图等。一般来说，黑白图的识别效率更高，但如果处理不当，也可能导致识别错误。

4、页面歪斜：轻微的页面歪斜、扭曲、梯形失真，平台可以忽略，但文字倾斜超过10°时，识别错误率就会高。所以，如果图像页面有问题，建议先进行预处理。

5、污损、模糊：页面上的透光、透字、彩点、黑边、污点等，都可能导致文字识别异常。

总之，清晰、标准是OCR识别的关键。

三、布局分析

古籍智能整理平台主要服务对象是繁体竖排的古籍，包括筒子页和半个筒子页的图像。这些古籍的文本输出顺序是从右至左、从上到下。但平台也能处理其他类型的文献，如经卷、文书、卷轴等，只要它们的版面布局和古籍相似。

不过，对于一些特殊的页面布局，平台可能无法完美处理。比如：

1、当页面过长或过宽时（超过3000像素），可能会出现识别异常。

2、针对上下分栏的页面，系统会认为页面存在水平分隔线，文本输出顺序如下图：

3、横排页面，请在上传时选择横版页面：

4、倾斜的页面在校编校编工作时会有文字倾斜的情况，但不影响识别精度。

总的来说，要想获得更好的OCR效果，还是得保证图像的质量和版面布局的规范。

四、文字与字体

古文字

系统主要识别的是楷书、隶书，不支持甲金篆等古文字。

生僻字处理

为了提高综合识别效果，系统针对GB18030-2000中文编码字符集中常见的20000个繁体字体有较好的识别能力，但是其他7000个左右使用率极低的生僻字，系统暂时未做处理。如果需要处理这些生僻字，可以使用系统提供的全字库字符查询工具来帮助你录入。

符号与非汉字字符

虽然系统可以识别常见的句号，逗号，但对于现代新式标点、空格、书名号等等，以及其他的非汉字语言文字，暂时还无法识别。

印刷字体

系统对明清的方体字（也称硬体字、匠体字、宋体字）、宋元以来的软字体，如颜体、欧体、柳体、赵体等均有有较好的识别效果；对标准楷体写刻本和名家手写上板的精刻本等，也有良好的泛化能力。一般来说，笔画清、字形厚的字体识别效果好；而笔画细、连挤挨的字体效果较差了。

手写字体

系统对以楷宋体书写的写本、稿本、抄本有较好的适应性。但对于行书、草书风格文字，识别效果还有待优化。

五、其他元素

1、批校

天头位置整齐的批校，系统可以单独处理，不会影响正文的顺序。但行间整齐的批校可能会被当作普通文字行。而那些挖改、涂改、勾乙则会对识别结果产生较大影响。

2、注释

对于古籍中的小字注释，系统有较好的处理能力。但如果是连续的多行小字或更小的注释，因为大小差异不明显，可能会被误识别为普通的双行小注。

3、表格

现在的系统对于表格的处理能力还不够强大。如果表格的栏线不明显，或者与文字靠得太近，还有那些模糊的行列关系和合并的单元格，都可能导致表格识别效果不佳。

4、插图

有时候，页面中的插图可能会被误识别为文字。同样，插图里的文字如果和线条混在一起，就很容易被识别错误或者遗漏。

最后，从技术核心到识别能力，云聪OCR系统无不展现了科技与文化的完美结合。在未来的日子里，云聪团队将继续深耕于古籍数字化领域，用科技为文化遗产保驾护航，让千年文明焕发新的光彩。

uuleaf

关注

27
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
古籍数字化平台中的OCR：这个平台更精准

古籍数字化平台，在浩瀚的历史长河中，古籍作为中华民族的文化瑰宝，承载着无数先人的智慧与心血。然而，由于岁月侵蚀、保存不当等多种原因，许多珍贵的古籍面临损坏、失传的危机。为了守护这些无价之宝，云聪研发团队倾力打造了一款尖端的OCR（光学字符识别）系统，旨在提升古籍数字化校编的效率，让千年文化得以传承。
复制链接

扫一扫