网店工商信息图片文字提取

首先非常抱歉,最近一段时间由于学校课程作业较多,外加个人较懒,所以一直没有更新文章,以后一定会勤奋点,多加更新。正如前几天在stormzhang**(张哥)**的公众号里看到的一样,写作其实并不难,每个人都可以做到,但是长期坚持写作就非常难,这也是写作者想要长期创作遇到的第一个大问题,所以贵在坚持。另外长期写作的第二大问题是什么呢?你猜猜看,看看我们认为的是不是一样。

最近主要是完成专业内的一些课程作业,比如Oracle数据库、JaveEE、搜索引擎等作业。国内大学总是会学很多课程,其实对多数学生来说,一些课程都不知道学着有什么意义。这点国外做的较是不错,在英国UWS当交换生的时候,可以选择自己喜欢的课程,这样也就有很大的兴趣去学习这些知识点。

在解决这些课程作业之中,有件事感觉可以和大家分享一下。我们都知道计算机行业技术更新非常快,然而JavaEE老师教的知识点还是10多年前的内容,每次课程结束之中还需完成一个实验。但就是这样一个简单实验,却需要我们学生花费2天或者3天时间去完成。花这么长时间,按理来说应该很难吧,恰恰相反,实验很简单,那为什么还要花这么长时间呢。其实多数时间都是用在各种环境配置、参数设置、寻找各种jar包中,实在不需要写多少代码。比如我需要调用某个jar包,版本太高不行,版本太低不行,来来回回换个好几个,遇到问题想去查一些博客,竟然都是10年前的资料。完成一次实验之后,至此JaveEE的实验我再也没有去做,每次要交的时候,都是借用同学的电脑给老师展示一下,然后拿个分数就走。不是说我懒,没有什么探索、钻研精神,全然是因为学习这种东西实在没有什么用处,还浪费很多时间,不如利用这些时间去完成一些自己比较感兴趣的事情。

另外需要声明一点的是,我的意思并不是旧的东西就没有用,而是强调在实用性和意义方面。比如数据结构、网络原理、操作系统,这样原理性的知识点,沉淀起来才是精华。但对于JavaEE这种实际开发技术来说,我认为过于陈旧的东西实在没有必要去学习。另外针对JaveEE开发这门课,任课老师为什么就不能更新一下知识点,来教一些更新的技术呢。既然如此,我的目标又不是追求多高多高的GPA,那么不如利用这些时间来解决一些自己比较感兴趣的问题,做一些有意义的事情较好。

专业课程作业之外,还有一个实训作业,也就是从中软杯12个题目之中选出来一个完成,然后进行答辩,由指导老师进行评分。这个我感觉还是比较有意思的,所以选了个网店工商信息图片文字提取的题目,然后花四天时间完成,下面主要和大家分享一下问题的解决思路。

1.网店工商信息图片文字提取

图片内容如下所示,但每张图片中信息出现的位置不尽相同,题目要求所写的程序能够完成如下几个功能点。

  • 程序能够识别不同格式的图片,并能够提取所要求的信息。
  • 从图片之中提取企业注册号和企业名称信息,并保存到Excel表格之中。

  • 程序能够自动读取企业工商信息图片所在的文件夹路径。

  • 识别速度保持在60秒识别50张图片,识别正确率保证在95%以上。
    01

2.Tess4j

了解题目要求之后,我们便开始来解决问题。首先明确一点的是,肯定不能从头去写文字识别算法或者文字识别程序,OCR(Optical Character Recognition , 光学字符识别)发展这么多年来,开源的库肯定不少,只需找到适合中文识别的类库或者项目即可。

个人采用的是Tess4j开源库,其中Tess4j是由Tesseract扩展而来,Tesseract是HP实验室开发由Google维护的开源OCR引擎,Tess4j支持Tiff,jpeg,gif,png,pdf等多种格式识别。我们只需要在https://sourceforge.net/projects/tess4j/下载类库,然后编写下述代码便可实现文字识别,使用方法很简单。如果你要使用的话,请注意package,imageFile,instance的位置。

package net
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值