针对自有版权的地方古籍进行细颗粒度标引存在一定的技术要求,首先在图书馆知识资源中,包含了大量的县志、古籍抄本、印刷善本等等,由于古代、近代的印刷技术限制,大部分古籍存在印刷不清晰、噪点较多的情况,会导致古籍OCR识别率极低,影响古籍稿本标引效果。
中科力天依托博士团队,历时两年成功打造“中科力天智能标引系统”,严格遵循《国家图书馆管理元数据规范》,在古籍善本识别技术上获得重大进展,目前在OCR识别率孤独求败,不断超越自我。
《中科力天智能细颗粒度标引白皮书》:https://gitee.com/uuleaf/yunconglabel
1、简单竖行繁体稿本识别
以《文心雕龙》稿本为例:
简单竖行繁体稿本识别
2、模糊手写竖行繁体善本识别
以《金刚经》善本为例(可以看到已经浸水过了):
模糊手写竖行繁体善本识别
识别结果:
智能格式整理(古语自动加标点,分词):
智能格式整理
3、复杂排版善本识别