个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖

在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析的文本类型数据。

过往功能

第15波-接入AI人工智能NLP自然语言处https://www.jianshu.com/p/56a0616125fa

技术行业背景

在图像OCR技术中,一直让人诟病的是准确度问题,但最近的人工智能技术兴起,貌似已经对OCR的识别水平有了很大的提升,各家的云计算平台都推出各种人工智能API接口,图像识别也成为云平台的标配。

在Excel的环境下,使用图像OCR文本识别技术,可以让数据顺利地进到Excel环境中,Excel环境不同于其他封闭式的系统环境,可以对生成的文本进行无穷尽地数据清理、数据整合过程。

在Excel催化剂开发运营一年多过程中,已经积累了大量的数据ETL能力,现推出图像OCR文本识别功能,正合其时,在OCR识别过后,数据进到Excel中,利用现有的Excel原生功能和Excel催化剂二次开发的大量的自定义函数、数据转换功能,让原本不规范存储的OCR识别出来的数据,可以很好地进行转换加工,成为下一步可以利用的结构化的数据。

OCR接口使用方

虽然百度在业界里的名声不太好,但它的人工智能AI方面,比较了好几家,最终无论从免费额度、接口完整性、接口易用性、开发文档完备性等多方面考量,最终还是决定再次使用百度的接口,完成图像的OCR文本识别功能。

百度AI接口免费调用次数
百度AI接口免费调用次数

同样欢迎其他商业用途的定制开发,可适配不同的云平台的OCR接口,开发出和当前采用百度接口功能和体验一致的Excel环境下使用的文本识别功能

百度OCR接口申请

有点奇怪的是,百度的AI应用申请,分为不同的应用类别,分别来显示应用清单,但在不同的应用类别下申请的APPKEY,又可以一个应用覆盖多个类别。

所以鉴于上次的人工智能篇已经申请了【自然语言处理】,为了减少过多应用混乱,可以同样地在某一类别下的应用中,同时勾选多个类别,最终实现一个应用,访问多个类别的功能。

在查看应用清单时,需要回到申请的类别页面里查找,例如笔者需要回到自然语言里查看文本识别的应用权限。

百度接口APPKEY申请
百度接口APPKEY申请
自然语言类别下同样可以申请文本识别
自然语言类别下同样可以申请文本识别

对于申请KEY有任何疑问,可自行搜索相关教程来学习,也可参考第15波里文章中提到的部分申请APPKEY的文章介绍。

功能实现

本篇的功能作为上一次人工智能功能的补充,入口也放到人工智能相关的菜单下。

功能入口
功能入口

在识别内容上,百度的OCR接口,作了许多的细分,例如常见的身份证、行驶证、驾驶证、车牌、银行卡等许多日常使用手机APP经常用到的功能,都已覆盖。

识别类型覆盖各大常见场景
识别类型覆盖各大常见场景

在特定类型的识别上,相对通用类型来说,识别的准确度会更高,返还的数据结构也更加偏向结构化处理过。如下方的身份证识别效果

身份证识别到的整齐的6个数据字段
身份证识别到的整齐的6个数据字段

百度的OCR识别一个很靠谱的功能是,可以自定义自己的识别模板,例如公司内部的某单据、表单的打印版样式,可以上传到百度AI后台,人工简单定义下模板里要提取的内容和对应的位置,最终识别出来的效果非常棒,所以按此逻辑,百度的OCR几乎可以识别一切的图像中的文本信息。

可在此网页上云定制自己的模板,具体方法请自行阅读相关介绍文档及视频
百度自定义模版OCR http://ai.baidu.com/iocr#/templatelist

在Excel催化剂识别类型最后一栏就是对应于模板类别来识别,需要额外填写模板ID,从网页上复制对应的模板ID过来。

 

模板ID需要用到
模板ID需要用到

具体使用步骤

步骤一:选定要识别的图像文件路径单元格区域

因一次只能识别一类的图像,需要先用筛选功能,将其他非相关文件路径给隐藏或者删除。

可使用之前开发的自定义函数获得某文件夹下的所有文件路径清单,同时也可使用插入图片的功能,在工作表上可视化不同文件路径对应的图片是否合符条件,将不符合的隐藏或删除。

步骤二:点击【图像文本识别】按钮调出配置窗体

根据选择的不同类型,补充其他额外的参数配置,例如身份证识别,需额外配置是否为正面,正面和反面识别用的是同一个类型。

不同识别类型下,需要配置的参数不同
不同识别类型下,需要配置的参数不同

若还未申请AppKey或AppKey还未勾选文本识别功能,需自行操作好前期步骤,再此处AppKey设置中填写入两个关键参数

AppKey设置
AppKey设置

 

步骤三:点击【开始识别】按钮,调用百度接口开始识别

请留意识别过程中返回的状态信息,若有任何异常,可按【中止】按钮停止操作。

开始识别及状态
开始识别及状态
步骤四:点击【导出数据】按钮,将数据导出至Excel工作表

因异步处理原因,不能一口气完成识别及导出功能,需手动点击【导出数据】,将数据导出到工作表中。

文本识别可能返回多行记录,已经在导出数据中作了一对多的关联操作,关联的字段为文本路径,一般来说,是唯一的。

导出数据后效果
导出数据后效果

在导出数据中,保留了关键的一列【行序号】,用于记录一组数据(某图像文件)返回的数据的顺序,此字段对后续进行数据处理、转换尤为重要。可参考后续的视频教程,会对其进行展开讲解。

结语

在当今数据时代中,身份堆积了许许多多的各种各样的数据,特别是像图像这样的非结构化数据,若没有一定的工具辅助,很难对其进行加工利用。

当然如果依赖某个特定的数据产品,完成所有事情,很不现实,而恰恰我们手中不起眼的Excel,对我们处理各种临时性非系统化的工作内容时非常地适合。

此篇给大家见识了Excel接入人工智能之后,所能发挥到的作用是超乎想像的。当然经过简单的OCR识别出来的数据,离我们真正要用还有一段小距离,而这段距离恰恰是在Excel的灵活性和可扩展性方面给予我们足够的能力去补足它,而无需坐等漫长地专业技术人员开发相应的功能,时间等不及,费用花不起。

更深入的OCR后的数据处理、转换等介绍,后续将会在视频教程中给大家作演示说明,相信在Excel催化剂的作用下,犹如化学反应中添加了催化剂一般,只需现有的普通技能的掌握,即可发挥威力巨大的数据处理、数据分析高级应用。

系列文章

一文带你全面认识Excel催化剂系列功能
安装过程详解及安装失败解决方法
第1波-工作表导航
第2波-数字格式设置
第3波-与PowerbiDesktop互通互联
第4波-一大波自定义函数高级应用,重新定义Excel函数的学习和使用方法
第5波-使用DAX查询从PowerbiDeskTop中获取数据源
第6波-导出PowerbiDesktop模型数据字典
第7波-智能选区功能
第8波-快速可视化数据
第9波-数据透视表自动设置
第10波-快速排列工作表图形对象
第11波-快速批量插入图片
第12波-快速生成、读取、导出条形码二维码
第13波-一键生成自由报表
第14波-一键生成零售购物篮分析
第15波-接入AI人工智能NLP自然语言处理
第16波-N多使用场景的多维表转一维表
第17波-批量文件改名、下载、文件夹创建等
第18波-在Excel上也能玩上词云图
第19波-Excel与Sqlserver零门槛交互-查询篇
第20波-Excel与Sqlserver零门槛交互-数据上传篇
第21波-Excel与Sqlserver零门槛交互-执行SQL
第22波-Excel文件类型、密码批量修改,补齐Power短板
第23波-非同一般地批量拆分工作表
第24波-批量发送邮件并指点不同附件不同变量
第25波-小白适用的文本处理功能
第26波-正确的Excel密码管理之道
第27波-Excel工作表设置快捷操作
第28波-工作薄瘦身,安全地减少非必要冗余
第29波-追加中国特色的中文相关自定义函数
第30波-工作表快捷操作(批量创建、命名、排序、工作表目录) 
第31波-数量金额分组凑数功能,财务表哥表姐最爱
第32波-空行空列批量插入和删除
第33波-报表形式数据结构转标准数据源
第34波-提取中国身份证信息、农历日期转换相关功能
第35波-Excel版最全单位换算,从此不用到处百度找答案
第36波-新增序列函数用于生成规律性的循环重复或间隔序列
第37波-把Sqlserver的强大分析函数拿到Excel中用
第38波-比Vlookup更好用的查找引用函数
第39波-DotNet版的正则处理函数
第40波-工资、年终奖个人所得税计算函数
第41波-文件文件夹相关函数
第42波-任意字符指定长度随机函数
第43波-文本处理类函数增强
第44波-可见区域复制粘贴不覆盖隐藏内容
第45波-逻辑判断函数增强
第46波-区域集合函数,超乎所求所想 
第47波-VBA开发者喜爱的加密函数类
第48波-拆分工作薄内工作表,堪称Excel界的单反
第49波-标准数据结构表转报表样式结果
第50波-批量打印、导出PDF、双面打印功能
第51波-聚光灯功能,长宽工作表不看错位使用
第52波-相同内容批量合并单元格,取消合并单元格并填充内容
第53波-无比期待的合并工作薄功能
第54波-批量图片导出,调整大小等
第55波-Excel批注相关的批量删除作者、提取所有批注信息等
第56波-获取Excel对象属性相关自定义函数
第57波-一键生成完全组合的笛卡尔积结果表
第58波-批量生成单选复选框 
第59波-快速调用Windows内部常用工具命令
第60波-数据有效性验证增强版,补足Excel天生不足
第61波-快速锁定解锁单元格及显示隐藏公式
第62波-单元格区域内数据加解密处理,最有效地保护数据方式
第63波-当前选择区域的上下左右平移功能及跳转窗口左上角
第64波-多级数据如省市区联动输入,自由配置永不失效
第65波-数据区域转换指定规格的多行或多列
第66波-数据快速录入,预定义引用数据逐字提示
第67波-父子结构表转换添加辅助信息之子父关系篇
第68波-父子结构表转换之父子关系BOM表拆分篇 
第69波-打造最专业易用的商务图表库
第70波-工作薄外部链接维护管理
第71波-定义名称管理器维护增强
第72波-序列规则下的数据验证有效性好帮手:快速录入窗体辅助录入
第73波-数据转换:单行多项目转多行单项目
第74波-批量排版格式利器,瞬间美化表格
第75波-标签式报表转标准数据源
第76波-图表序列信息维护
第77波-专业图表制作辅助之批量维护序列点颜色及数据标签
第78波-功能大爆炸下如何找到所需的功能
第79波-自动及手动备份功能,比Onedrive还好用
第80波-按条件查找数字,扩展原生查找功能
第81波-指定单元格区域内容及公式填充
第82波-复制粘贴按源区域大小自动扩展收缩目标区域
第83波-遍历文件夹内文件信息特别是图像、音视频等特有信息
第84波-批量提取OUTLOOK邮件附件
[第85波-灵活便捷的批量发送短信功能(使用腾讯云接口))https://www.jianshu.com/p/2bd2d05dc541

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

因插件使用VSTO开发技术完成,插件的安装需要电脑满足相关的环境配置才能运行,且需可连接外网的方式实现自动更新机制,若下载安装过程中有任何疑问或需要离线版安装等,尽量不单独私聊询问,加QQ群可高效解决(群内已汇集了VSTO开发、Powerbi技术、Sqlserver商业智能等方面的国内顶尖大牛人物,进群的好处不用多说了)

Excel催化剂插件交流群群二维码
Excel催化剂插件交流群群二维码
联系作者
联系作者
公众号
公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。

转载于:https://www.cnblogs.com/ExcelCuiHuaJi/p/11224882.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值