用python提取发票扫描件常用的10多个发票信息保存到excel表

用python提取发票扫描件常用的10多个发票信息

如何将发票扫描将中常用的10-20个信息提取到excel表格中,用python提取是不错的方法。
1、用python提取发票信息,首先要装一个python软件,可以在www.python.org官方网站进行下载;
2、最好下载一个pycharm,python的集成开发环境,用pycharm编写代码,比较方便,有智能的提示;
3、在百度智能云上注册一个用户,实名认证,创建管理应用(文字识别);一个用户每天可以识别500份发票;
4、python识别发票需要用到以下几个库:base64,os,openpyxl,time,requests
具体参考代码如下:
import os
import requests
import base64
import openpyxl as pl
import time as t
t1=t.time()
wb=pl.load_workbook(“发票管理.xlsx”)
ws=wb[“发票管理”]
ws1=wb[“全部字段”]

‘’’
增值税发票识别
‘’’
path = “E:\python\南京邮电大学\01100190041112839924”
#path根据自己的发票图片路径进行填写,注意要用"\",如前面加了r,可以使用"

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这个任务可以分为以下几个步骤: 1. 导入必要的库 ```python import os import docx import pandas as pd ``` 2. 定义函数从word文提取内容 ```python def extract_text_from_docx(path): """ 从word文提取文本内容 :param path: 文路径 :return: 文内容 """ doc = docx.Document(path) text = '' for para in doc.paragraphs: text += para.text return text ``` 3. 定义函数将提取的内容保存excel中 ```python def save_to_excel(data, output_path): """ 将数据保存excel中 :param data:数据 :param output_path:输出路径 """ df = pd.DataFrame(data) df.to_excel(output_path, index=False) ``` 4. 定义主函数,遍历指定文夹中的所有word文,并提取其内容保存excel中 ```python def main(input_path, output_path): """ 主函数 :param input_path:输入路径 :param output_path:输出路径 """ data = [] for file_name in os.listdir(input_path): if file_name.endswith('.docx'): file_path = os.path.join(input_path, file_name) text = extract_text_from_docx(file_path) data.append({'file_name': file_name, 'text': text}) save_to_excel(data, output_path) ``` 5. 调用主函数,指定输入路径和输出路径 ```python if __name__ == '__main__': input_path = 'input_folder' # 替换为输入路径 output_path = 'output.xlsx' # 替换为输出路径 main(input_path, output_path) ``` 完成上述步骤后,运行代码即可将多个word文中的内容提取到一个excel中。注意需要先安装docx和pandas库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值