python提取发票信息发票识别_分享一个电子发票信息提取工具(Python)

最新推荐文章于 2024-07-30 11:52:42 发布

weixin_39945475

最新推荐文章于 2024-07-30 11:52:42 发布

阅读量4.6k

点赞数 1

文章标签： python提取发票信息发票识别

本文介绍了一个使用Python编写的电子发票信息提取工具，能够从PDF格式的电子发票中自动提取标题、发票代码、发票号码、开票日期等关键信息，并支持统计发票总额。工具在处理中石油和京东的电子发票时表现良好，但可能存在部分发票名称无法识别的问题。源代码已提供，可供有需要的开发者参考和改进。

摘要由CSDN通过智能技术生成

电子发票太多，想统计下总额异常困难，网上工具不好用，花了2个小时实现一份，测试过中石油、京东开具的电子发票还行，部分发票名称失败有问题不影响统计，有需要的小伙伴自己拿去改吧。

import cmd

import sys

import json

import pdfplumber

import os

from pprint import pprint

class FapiaoShell(cmd.Cmd):

""" 发票 """

intro = '欢迎使用发票提取工具，输入?(help)获取帮助消息和命令列表，CTRL+C退出程序。\n'

prompt = '\n输入命令: '

doc_header = "详细文档 (输入 help <命令>):"

misc_header = "友情提示:"

undoc_header = "没有帮助文档:"

nohelp = "*** 没有命令(%s)的帮助信息 "

def __init__(self):

super().__init__()

def do_load(self, arg):

""" 加载发票例如：load D:\ """

if not os.path.isdir(arg):

print('参数必须是目录!')

return

os.chdir(os.path.dirname(arg))

pdfs = []

for root, _, files in os.walk(arg):

for fn in files:

ext = os.path.splitext(fn)[1].lower()

if ext != '.pdf':

continue

fpth = os.path.join(root, fn)

fpth = os.path.relpath(fpth)

print(f'发现pdf文件: {fpth}')

pdfs.append(fpth)

p

最低0.47元/天解锁文章

weixin_39945475

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。