财务福音。用Python+OCR人工智能识别发票自动存入Excel表格保姆级教程_开源发票识别(2)

最新推荐文章于 2025-02-26 15:40:30 发布

2401_84139610

最新推荐文章于 2025-02-26 15:40:30 发布

阅读量1k

点赞数 11

分类专栏：程序员文章标签： python ocr excel

本文链接：https://blog.csdn.net/2401_84139610/article/details/138390996

版权

本文详细描述了如何使用Python和OCR技术（如pyocr和Tesseract）处理发票图片，提取发票号码、税额和销方名称，强调了图片质量对识别精度的影响，并提供了完整的代码示例和优化建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

源代码

1. 读取发票

ocr = CnOcr()``tool = pyocr.get_available_tools()[0]`
`img_url = "pic/fp01.jpg"``with open(img_url, 'rb') as f:`    `a = f.read()``new_img = PI.open(io.BytesIO(a))``new_img.show()

2. 提取发票号码

def text1(new_img):`
    `left = 1530`    `top = 80`    `right = 1830`    `bottom = 160`    `    image_text1 = new_img.crop((left, top, right, bottom))`
    `#image_text1.show()`    `txt1 = tool.image_to_string(image_text1)`    `#print(txt1)`    `return txt1`    `# print(text1(new_img))

left、top、right、bottom就是图片的四个顶点坐标，数值可以经过多次修正而定，大家根据自己的发票内容去定位即可，如果想兼容性强一些，可以让框子尽可能大，以保证每一张发票都能准确框住该位置。这也要求发票的各照片不能差距太大，尽量按统一标准拍摄，以保证各字段相对位置变化不会太大，否则一旦框不住需要的字段，就无法识别。如果所有发票都是格式统一的电子发票则不存在此问题。