安装的命令如下:
pip install pyocr
pip install cnocr
安装还是非常简单的!
发票中含有中文内容,我们需要对图片中的中文进行识别,那么 cnocr 是一个不错的选择。
提示:安装好上面的库之外,还需要安装额外的exe文件,不然会出现下面这种错误
需要安装的exe文件:
1. ImageMagick
2. tesseract-OCR
这两个软件的安装过程就不再赘述了,大家可以自行搜索教程进行安装。
03.提取内容
下面以其中一张图片为例,讲解如何提取目标内容:金额、名称、纳税人识别号、开票人。
读取图片:pic/pic1.jpg
tool = pyocr.get_available_tools()[0]
img_url = “pic/pic1.jpg”
with open(img_url, ‘rb’) as f:
a = f.read()
new_img = PI.open(io.BytesIO(a))
提取金额
需要截取到发票中金额的位置
## 金额
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展示图片
image_text1.show()
这里的left、top、right、bottom的数值是通过多次修改定位而来。大家根据自己的发票内容去定位即可。
接着将图片中的数字提取出来
同样的,下面继续提取:名称
提取名称
left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()
这里的名称是中文的,咱们不能再像提取金额(数字)操作。需要使用到cnocr去将图片中的中文取出。
image_obj2.save(“tmp.jpg”)
ocr = CnOcr()
res = ocr.ocr(“tmp.jpg”)
print(“”.join(res[0]))
提取纳税人识别号
#纳税人识别号
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展示图片
image_text3.show()
txt3 = tool.image_to_string(image_text3)
print(txt3)
将图片中的纳税人识别号提取出来,结果如下:
提取开票人
left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()
image_obj4.save(“tmp.jpg”)
ocr = CnOcr()
res = ocr.ocr(“tmp.jpg”)
print(“”.join(res[0]))
由于有中文,咱们这里同样和提取名称一样,使用cnocr将图片中的中文取出。
ok这样我们就将发票中的四个目标内容提取出来,接着将文件夹pic下的所有发票,进行识别将内容保存到excel。
04.批量识别发票并保存到excel
最后
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
👉Python所有方向的学习路线👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
👉Python必备开发工具👈
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
👉Python全套学习视频👈
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
👉实战案例👈
学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。
因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。
👉大厂面试真题👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!