这个功能还是挺吊的,应用场景也不少。
定制识别图片中的文字信息,结构化输出关键字段内容,极大提升OCR模型训练效率,满
足个性化卡证票据识别需求;支持公有云服务、私有化部署多种使用方式。
说白了就是一个图片里有有什么文字都能直接识别出来,所以以后别乱发身份证照片了,海量从网上给你扒下来。
常见的场景嘛,就是数据标注,然后再生成应用,完成训练。
-
数据标注
创建数据集并上传真实图片,定义数据识别字段作为标注标签,在图片中框选对应的 Key/Value 内容区域,自动识别框选区域内容完成转写,标注人员对识别结果进行查验纠正即可完成标注。 这个数据标注可是个大买卖,很多数据标注过后才可以被使用,所以OCR在里面还是很关键的。
-
数据生成
基于已标注数据,将图中已框选 Value 区内容进行抹除,选择对应的字体、字号、颜色,并根据该字段的内容选择相匹配的语料库,即可完成虚拟数据生成底板的创建,并基于此底板生成任意张版式相同内容不同的虚拟数据,快速扩充数据集规模,结合真实数据一同用作模型训练集
-
模型训练与管理
支持根据使用场景需求创建多个的识别模型,选择包含已标注数据及虚拟数据的数据集进行训练,即可自动排队完成训练,同时输出预测准确率供参考;也可扩充数据集对现有模型进行迭代训练,产出新版本
-
服务部署
对训练完成的模型可上传真实数据进行模型校验,效果满意后即可一键发布上线,自动分配机器资源完成部署,并生成标准API接口供业务调用
特色优势
零门槛操作
提供一站式流程化训练,并预置最佳预训练模型及训练参数,无需算法基础、无需关注算法细节即可完成模型训练
高精度效果
基于百度丰富的商用模型实训经验,预置最佳实践产出的预训练模型,并基于百度自研的 EnDet 实体检测模型进行训练,模型平均准确率可达 90% 以上
低成本数据
提供可视化数据管理平台,对上传图片进行智能预标注,仅需核对修改即可完成标注,并可基于一张标注图片批量生成虚拟数据,快速扩充训练集,启动模型训练
超灵活部署
支持多种部署方式,公有云服务可一键部署,即刻生成 Restful API,毫秒级调用响应,高并发承载;同时,完整平台支持私有化部署,可用于搭建企业内部 AI 中台;也可支持产出模型容器化打包进行本地部署,快速完成项目交付
应用场景
- 证照电子化审批:对政府、金融、企业等审批流程中涉及到的各种证照,如食品/药品经营许可证、特种设备审批证等,进行定制训练,快速提取关键信息完成线上审批,实现 7*24 小时无间断服务
- 财税报销电子化:对不同金融或税务机构发型的各类财务发票、银行单据进行定制训练,快速实现财税凭证的录入,大幅度节约凭证邮寄、录入成本,实现线上电子化报税报销
- 保险智能理赔:对不同版式的保单或不同地区、不同医疗系统开具的医疗票据进行定制训练,实现保险理赔相关材料的快速录入,降低人力成本,提升保险理赔的业务安全性及快捷性