Python PDF文件合并,提取

1. 功能介绍

  1. 选择两个pdf指定的页码并合并成一个文
  2. 选择一个指定的pdf文件,并指定页码,将指定的页码提取出来,可以用’,‘和’-‘分割
  3. 选择一个pdf文件,将其内容转换为word文件。
  4. 选择一个pdf文件将其表格转换为excel文件

2.项目难点

1. tkinter设置图标显示

tkinter设置图标显示可以使用TK.iconbitmap(‘pdf.ico’)函数实现。
但是在打包成一个exe文件之后,就无法实现了。
可以将ico文件通过base64模块的base64decode()将ico文件转换成数据流,然后创建一个新的py文件来保存成一个参数。如此在使用过程中通过再将base64数据转换成一个ico文件,再引用即可。

import base64

open_icon = open("image/pdf.ico", "rb")
b64str = base64.b64encode(open_icon.read())
open_icon.close()
write_data = "img = %s" % b64str
# write_data = b64str
with open("icon.icon", "w+") as f:
    f.write(write_data)

引用base64数据,生成一个ico文件并在系统中引用

import ctypes
import tkinter as tk
import base64
import os
from icon import img

if __name__ == "__main__":
    # 以下两句代码用于将windows的任务栏图标设置为跟程序icon一样。
    myappid = "company.product.version"  # 这里可以设置任意文本
    ctypes.windll.shell32.SetCurrentProcessExplicitAppUserModelID(myappid)
    window = tk.Tk()
    window.title = "testicon"
    window.geometry("800x400")
    window.resizable(0, 0)

    img_data = base64.b64decode(img)

    with open("pdf.ico", "wb+") as fw:
        fw.write(img_data)

    window.iconbitmap("pdf.ico")
    os.remove("pdf.ico")

    window.mainloop()

3. 源代码

#!python
# author:kunta
# date: 2022-09
# version 1.1.0
# description: this software have 4 function
# 1. 选择两个pdf指定的页码并合并成一个文件,未指定页码则完全合并两个文件
# 2. 选择一个指定的pdf文件,并指定页码,将指定的页码提取出来,可以用’,‘和’-‘分割
# 3. 选择一个pdf文件,将其内容转换为word文件。
# 4. 选择一个pdf文件将其表格转换为excel文件。

# date 2022-10
# version 2.0
# 本版本增加PDFOCR识别功能。

import tkinter as tk
from tkinter import ttk, HORIZONTAL
from tkinter import filedialog
from tkinter import messagebox
from tkinter import Button, Label, StringVar, IntVar
from tkinter.ttk import Separator
from tkinter import RAISED
from PyPDF2 import PdfReader, PdfMerger, PdfWriter
from functools import partial
from pdf2docx import Converter
import pdfplumber as ppm
import pandas as pd
import ctypes
from icon import img   # 将pdf.ico图片转换成base64文件并作为img变量保存到icon.py中。
import openpyxl
import cv2
import os
import base64


# 读取合并文件的第一个选择框内容
def askfile1():
    # 打开文件选择器,并筛选出pdf文件
    filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])
    if filename is None:
        entry1.insert(0, '您没有选择任何文件!')
    else:
        entry1.delete(0, "end")     # 选择文件之后,将entry1输入框的内容清空。
        entry1.insert(0, filename)  # 然后将选择的文件全路径插入到entry1输入框中


# 读取合并文件的第二个选择框内容
def askfile2():
    filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])
    if filename is None:

        entry2.insert(0, '您没有选择任何文件!')
    else:
        entry2.delete(0, "end")
        entry2.insert(0, filename)


# 读取分割文件选择框内容
def askfile3():
    filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])
    if filename is None:
        entry3.insert(0, '您没有选择任何文件!')
    else:
        entry3.delete(0, "end")
        entry3.insert(0, filename)


# 读取pdf转word选择框内容
def askfile4():
    filename = tk.filedialog.askopenfilename(filetypes=[('PDF', '*.pdf'), ('All Files', '*')])
    if filename is None:
        entry4.insert(0, '您没有选择任何文件!')
    else:
        entry4.delete(0, "end")
        entry4.insert(0, filename)


# 读取pdf转Excel选择框内容
def askfile5():
    filename = tk.filedialog.askopenfilename(filetypes=
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值