【OCR】企业实现全面“数据化”转型,这么做数据才有价值! ...

前言:

随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次主要内容分为三部分:

一.OCR能力简介
二.OCR产品
三.OCR应用

一、OCR能力简介

OCR到底是什么?
image

其实它就是把图片里面的文字识别出来。为什么OCR突然现在越来越多的场景都要用到它呢?很多人一定听过数据化、智能化?那么怎么把很多的东西变成可用的数据呢,这个就非常的关键。
image

我们之前在很多法院以及司法机关等,其中的卷宗都是纸质的文档。大家都知道,纸质文档时间久了会褪色,查询的时候也会很麻烦。我们要把所有的文档中的文字提取出来,把这些变成可编辑的数据,这时候才是有价值的,这个才是数据化的第一步。

接着便是智能化。比如说我们过去在银行,如果要登记身份证的信息,那可是要银行的工作人员一个一个手打进去的,但现在很方便了,你只要一扫,所有的信息就可以按要求来输出。
image

还有一个场景就是——网络监管,现在有很多广告发出来,在发布广告时,不允许出现“最”、“第一”等等。但现在这么多的商家,这么多的图片,不可能依靠人力去一个一个识别,所以也要用到OCR技术,把图片的文字内容识别出来。

这就是OCR应用场景,就是数据化、智能化第一步,整体足够降低50%的人力成本。

从技术的维度做解释:
简单来说,就是文字识别;更深维度就是说 文字理解。
image

第一步,把文字识别出来。比如这张图片的火车票,把有字的地方定位出来,识别出来。
第二步,很多时候,所有的文字并非都有用,我们需要的也许只是一部分信息。其实也就是说你需要什么信息,需要进行文字理解,然后对应我给你输出什么信息。

目前我们能做的主要包括这么几大类:
image

卡证类、表单类、汽车相关类识别、资产类证件、通用文字识别、行业文档的识别等等。
这些都是满足客户标准化的需求;当然如果客户有比较特别的需求的话,我们可以输出自定义模板,根据客户的需求来定制。
image

这是我们阿里云OCR和友商的一个对比,大家也可以自己对比下。

二、OCR产品

OCR整体来说就分为两类,一种是全文识别,另外就是结构化识别。

image

全文OCR识别:只要识别里面的文字就行了,所有的内容识别起来。我们只做文字定位、识别、提取。

结构化OCR识别:卡针类、发票类,比如其他一些不同的证件,这是要做结构化提取的。

举个例子:
一张司法行业的单子:
1.判断这张图是否旋转
2.内容分类,全文字还是表格类的
3.每个字的坐标确认,识别,输出

结构化:
image

这是户口页的一张图。全文识别就是把其中所有的内容识别出来,但我们无法判断其中的关系,户主是谁?所以这个时候我们要通过核心的关键字词来判断。

整个步骤如下:
1.提取整个表格
2.文字提取
3.语义空间关系提取
4.通过结构化来输出客户想要的信息

自定义模板
当客户公司有自己的单子,每一家公司的肯定也不一样,这个时候就要用到自定义模板。
image

  1. 把你想要的内容标注出来,然后发布
  2. 接着把数据做调用,看下能否达到你的效果(不一定适用,不合适那就继续改,直到满足自己的模板)
  3. 通过不断的训练,和模板优化,最后输出自己满意的模板
    image

这是我们自己的一个技术,包括收货凭证、门诊发票以及海外的一些证件,都可以自定义模板来配出来的
image

和第三方OCR作对比的能力:

  1. 高准确率:准确率好不好,要依据大量数据,我们有2000亿张图片来进行训练
  2. 适用性:多用于多种场景下的普适性文字识别
  3. 高实时性 我们平均耗时100ms
    我们OCR目前是支持公共云和专有云的。

image

如果你们对数据不是特别敏感,我还是建议你们用公共云的方式来调用,因为我们的数据本身是不落盘的,其次我们不用去购买另外的服务器;最后我们线上的版本也在不断优化和更新,对于客户来说,会以最快的速度体验到我们最新的版本。
当然专有云一样,有一些比如像政府、司法、银行,数据绝对不允许外流,他们必须在自己的网络上进行,但专有云有一点要有自己的GPU服务器,其他的我们的交付方式还是性能来说,都一样的,
如果你们需要来测试我们接口的话, 公共云有500次免费的;专有云当然也可以poc测试,只要客户准备好GPU服务器,说明需求,我们可以把做好的“加密狗”寄到他们那来测试,测试完了之后我们再实施部署。

三、OCR应用

公共云客户也非常多,简单举个例子,以物流行业为例。可能会碰到很多司机,来注册我们平台,这时候需要司机来提供身份证、驾驶证供我们来认证,客户就可以通过OCR印刷文字识别来解决这个问题。

专有云目前核心在司法和金融行业。
image

OCR在司法行业,提供最底层的技术能力,通过很多合作伙伴,联合ISV对外输出。

金融行业:目前在银行用的最多的是“两录一审”的状态,我们录入信息的时候,都是两个人录入,一个人审核,全都是通过人工的方式。现在通过OCR的能力,可以减少一部分人工的成本。

目前专有云上在司法和金融比较成熟的,另外我们也在拓展海关以及医疗的一些场景;公共云我们会把很多通用性的标准的接口输出,让大家用API的方式对接更简单。

这就是今天和大家分享的内容,有问题可以继续提问哈~~

资料链接:

PPT下载
ET体验馆
官方demo
错误码对照

OCR对外客户反馈群 入群方式:
钉钉搜索:11700462

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《企业数据标准建设案例.pdf》是一份关于企业如何进行数据标准建设的案例研究报告。该报告通过研究某企业的实际情况,总结了该企业进行数据标准建设的经验和法,并提供了一些可供其他企业参考借鉴的建议。 在该案例中,该企业首先明确了数据标准建设的目标和重要性,意识到数据标准企业数据质量、流程优、决策支持等方面的重要作用。然后,他们制定了详细的数据标准方案,包括数据采集、数据存储、数据分类等方面的要求和流程,并建立了相应的数据标准管理机制。 该企业数据标准建设过程中采取了一系列的措施。首先,他们对企业内部的各个业务系统进行了调研和分析,了解了各个系统的数据情况和标准需求。然后,他们组织了一支专门的团队进行数据清洗、整合和转换,确保数据的一致性和准确性。同时,他们还加强了对数据标准的培训和宣传,提高了员工的意识和参与度。 在数据标准建设的结果方面,该企业取得了显著的成效。首先,数据标准使企业数据分析和决策方面更加准确和高效,提升了企业的竞争力。其次,数据标准企业数据流程和业务流程,降低了企业的运营成本。此外,数据标准还为企业未来的数字转型和智能发展奠定了坚实的基础。 综上所述,《企业数据标准建设案例.pdf》是一份关于某企业数据标准建设经验的案例研究报告。通过阅读该报告,其他企业可以借鉴该企业法和经验,以指导自身进行数据标准建设,进一步提升企业数据质量和运营效率。 ### 回答2: 《企业数据标准建设案例.pdf》是一个关于企业数据标准建设的案例文件。该案例文件记录了一个企业数据管理方面实施标准建设的具体经验和成果。下面是对该案例文件的回答。 该案例文件主要介绍了一家企业数据管理方面所面临的挑战以及他们采取的解决方案。首先,该企业发现他们的数据分散在不同的系统和部门中,造成了数据的不一致性和难以管理。为了解决这个问题,他们决定实施企业数据标准建设。 在案例文件中指出,该企业首先进行了数据清洗和整合的工作。他们通过对现有数据进行归一处理,删除重复数据和错误数据,确保数据的准确性和一致性。然后,他们制定了数据标准的规范和流程,并确保各个部门按照规定的标准进行数据录入和管理。 此外,该企业还介绍了他们建立了数据管理团队和数据治理委员会的法。数据管理团队负责监督数据管理的执行和效果,并定期对数据进行审查和更新。数据治理委员会由跨部门的代表组成,负责制定和修订数据标准和政策,以确保数据管理工作的持续改进和有效实施。 在实施企业数据标准建设后,该企业取得了显著的成果。首先,数据的质量得到了明显的提升,数据的准确性和一致性得到了保证。其次,数据查询和分析的效率也得到了提高,决策者可以更快速地获取准确的数据,支持企业的决策和发展。 综上所述,《企业数据标准建设案例.pdf》记录了一家企业数据管理方面实施标准建设的经验和成果。通过数据清洗和整合、规范和流程制定、数据管理团队和数据治理委员会的设立,该企业成功地实现数据的标准管理,提升了数据质量和查询分析的效率,为企业的发展和决策提供了有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值