在数字化时代背景下,企业运作中财务票据的处理效率与准确性扮演着关键角色。OCR(光学字符识别)技术,作为一种创新的技术手段,能够将纸质文件、图像或PDF文档里的文字内容转换成可编辑和可检索的数字格式。在智能化的财务票据识别及自动化验证领域,OCR技术的应用显著提升了数据处理的速度,并同时增强了财务流程的安全性与精确度。
OCR票据识别技术主要基于深度学习技术,通过以下步骤实现票据图像中文字信息的识别和转换为可编辑文本的过程:
▶技术原理
· 图像采集:使用扫描仪、摄像头等设备对票据进行扫描或拍摄,获取票据的原始图像。
· 图像预处理:对采集到的票据图像进行预处理,包括去噪、倾斜校正、灰度化、二值化等操作,以提高图像的质量和清晰度,便于后续处理。
· 区域定位:在预处理后的图像中,定位包含文本信息的区域。这一步通常通过边缘检测、轮廓提取等图像处理技术实现。
· 字符分割:将定位到的文本区域分割成单个字符的图像,以便进行后续的字符识别。
· 字符识别:利用OCR技术对每个字符图像进行识别,将其转换为对应的文本信息。这一步骤是OCR技术的核心,通常采用机器学习或深度学习算法实现。
· 后处理:对识别出的文本信息进行后处理,包括纠错、格式化等操作,以提高识别结果的准确性和可读性。
合合信息一站式智能报销解决方案
合合信息提供一站式智能报销解决方案,基于智能文字识别技术,可OCR识别包括增值税专用/普通发票、全面数字化的电子发票、火车票、出租车发票、飞机行程单、网约车行程单等在内的23大类、30小类国内通用票据,同时支持增值税专用/普通发票、铁路电子客发票、航空运输电子客票行程单发票等10类发票在线查验真伪。对于无法验真的票据类型,合合信息还提供图像篡改检测能力,可自动检测图片是否有PS痕迹,防止报销凭证被篡改。
·票据自动分类与识别
报销场景中,面对着票据种类多样、文件格式多样、多种票据混贴等复杂情况,合合信息TextIn国内通用票据识别产品,支持识别增值税专用/普通发票(电子、卷票、纸质、通行费)、全面数字化的电子发票、火车票、出租车发票、定额发票、机打发票、飞机行程单、网约车行程单等23大类、30小类国内通用票据,支持识别jpg、png、bmp、tiff等多种通用图片格式,以及PDF、OFD格式,满足企业多样化业务场景需求
传统的票据分类方法通常针对某一票面提供单一的API接口,在高吞吐量、多票面场景下难以应对。TextIn国内通用票据识别经过深度优化,提供单接口调用服务,自动分类票种并返回识别结果,大幅简化集成难度。用户上传票据时无需手动选择类型,直接上传票据图像,系统即可智能识别类型。
针对混贴多张票据的图像,TextIn国内通用票据识别可清晰区分票据,自动切边提取票面信息,智能识别票据类型,便捷切换展示分类识别结果,支持多类票据批量上传、混合扫描、切图、分类、识别。同时对旋转、角度不正的票据图像,也可自动旋转矫正图像,不影响识别效果。
基于TextIn国内通用票据识别,员工在系统中上传报销凭证后,系统可自动识别票据上的关键信息,并准确提取、自动填表,避免了手工录入和核对的时间和人力成本,还可实现票据的智能分类和归档,简化票据管理流程。
▶应用场景解析
·发票验真
财务人员需要查验员工提交的报销凭证的真伪,TextIn发票验真接入国家税务机关发票查验平台权威数据源,支持在线进行发票真伪核验,有效降低人力查验成本,为企业财务信息安全护航。
从今年11月1日起,我国铁路客运领域推广使用全面数字化的电子发票,纸质火车票逐步退出历史舞台。为了响应激增的电子发票(铁路电子客票)的验真需求,TextIn发票验真新增支持核验铁路电子客票、航空运输电子客票行程单。
目前,TextIn发票验真支持增值税专用/普通发票(电子、纸质、卷票、通行费)、铁路电子客票、航空运输电子客票行程单、机动车销售统一发票、二手车销售统一发票等10类发票的验真,标准化接口封装,调用简单,只需上传发票关键要素,即可直接获取真伪查验结果。
企业可通过调用TextIn国内通用票据识别与发票验真,系统自动判断发票类型,采集关键要素信息,输出真伪查询结果,实现发票智能分类、识别、验真全流程自动化。
·报销凭证防篡改
除了可验真的发票类型,网约车订单、航空行程单、酒店流水单、付款截图等各类单据也是重要的报销佐证,需要核验其真实性。手机P图工具的普及和肉眼难以分辨的P图效果对企业的财务安全造成了严重挑战。当截图单据能被轻而易举地篡改,审核人员除非练就“火眼金睛”,否则便难以保证手中批准的流程项目是真实可靠的,而事实上,“对图捉虫”也并不是财务人员应该额外负担的工作。
合合信息TextIn图像篡改检测产品,能够捕捉图像在篡改过程中留下的细微痕迹,基于海量数据学习图像被篡改后统计特征的变化,智能判断图片是否被篡改。检测覆盖了复制粘贴、拼接、擦除等多种篡改形式与混合篡改,还能够定位修改区域,以热力图形式展示图像区域篡改置信度。以下图的网约车订单截图为例,交通费发生时间、金额都是财务审核的重点。TextIn图像篡改检测能够协助财务人员辨识截图中经过P图篡改的时间、金额数字,提升工作便利性与安全性。
凭借该项图像篡改检测技术,合合信息在2023年文档分析与识别国际会议(ICDAR)挑战赛中战胜来自全球的上千支参赛团队,获得了“文本篡改检测”赛道总冠军。