之前领导给了个任务,将一批存放在Excel和word中的数据导入到现有的系统中。
这些Excel和word数据没有统一的规则,也存在数据不完整的问题。在完成任务的过程中,难免恼火。
但是这次任务引发了我的一系列思考,记录如下:
一、关于Excel宏编程
此次任务是从Excel和Word中导入,我精通java编程,也对navicat工具的使用比较熟悉,如果在此基础上,对Excel宏编程也了如指掌就更好了。
后来我就学习了Excel宏编程相关知识,受益匪浅,今后一定还会有用得到的时候。
学习链接:【王佩丰】Excel VBA视频教程 完整版【共20课时】_Excel课程-51CTO学堂
二、关于RPA
后来我进而联想到,除了从Excel和Word导入之外,还可能涉及到别的电子文档,甚至从别的软件、别的系统导入,不一定非得通过第一种JAVA编程的方式。
后来从朋友那里了解到一个叫“RPA”的东西。
RPA是什么?RPA发展极简史_UB Store的技术博客_51CTO博客
三、关于OCR
那么以上这些,都还停留在从电子信息到信息系统的层面。
人们的最终目的,实际上是【将各种去到得来的信息存储进信息系统】。那么纸媒介肯定也应该是考虑的对象。
然后我就学习了OCR相关知识。在这个过程中,尤其学习了卷积神经网络相关知识。除了下面参考到的资料,关键来源还有这个:
【OCR技术系列之一】字符识别技术总览_51CTO博客_ocr识别技术
【OCR技术系列之二】文字定位与切割_51CTO博客_ocr文字定位
【OCR技术系列之三】大批量生成文字训练集_51CTO博客_ocr文字识别训练