python读取pdf里的文字、图片以及图片里的文字

最新推荐文章于 2024-07-30 14:56:57 发布

Pert-

最新推荐文章于 2024-07-30 14:56:57 发布

阅读量2.9k

点赞数

本文链接：https://blog.csdn.net/s_frozen/article/details/120888013

版权

PDF处理文本提取图像识别 AipOcr 多线程

关键词由CSDN通过智能技术生成

import pdfplumber
import fitz
from PIL import Image
from aip import AipOcr
import re
import threading
import xlwt
import numpy as np
import pandas as pd

# ##提取pdf文档的文字写入运动报告.txt中

pdf_name=r'C:\Users\Pert\Desktop\公司文档\食物\中国食物成分表 标准版 第6版 第1册_14452917_.pdf'

# f=open('运动报告.txt','w',encoding="utf-8")
# pdf=pdfplumber.open(pdf_name)

# page_count = len(pdf.pages)
# print(page_count)  # 得到页数

# for page in pdf.pages:
#     # print('---------- 第[%d]页 ----------' % page.page_number)
#     # # 获取当前页面的全部文本信息，包括表格中的文字
#     # print(page.extract_text())
#     f.write(str(page.extract_text()))
  
# f.close()
# pdf.close()




class Acqire:
	def __init__(self):
		self.APP_ID = '24414511'
		self.API_KEY = 'OUogI3CydVfG54yeK4NwnYQt'
		self.SECRET_KEY = 'swhZn760fvuTAvppUHbCC3CAkRK7Xngw'

	### 改变图片尺寸
	def ResizeImage(self,path2):
	    filein = path2
	    fileout = path2
	    width = 1600
	    height = 2000
	    img = Image