Python去水印操作

最新推荐文章于 2024-05-10 16:26:20 发布

VinciYang

最新推荐文章于 2024-05-10 16:26:20 发布

阅读量4k

点赞数 3

文章标签： python 开发语言

本文链接：https://blog.csdn.net/Vinky_in_Saar/article/details/125414555

版权

看到有很多去水印的资源，但是有的方程并不适合新的python，或者转化后的清晰度太低，所以在前人的代码上改了一下，让fitz打开时存储更多信息.至于如何确定水印RGB，推荐微信截图功能，在将pdf转换成图片时可以先查看一下，我转的pdf的水印大部分的RGB加起来是631，但是边缘还是会没被去除干净，所以也可以用>=而不是==。

from itertools import product
import fitz
import os


# 去除pdf的水印
def remove_pdfwatermark():
  #打开源pfd文件，这里将pdf和python执行文件放在同一路径下
  pdf_file = fitz.open("1.pdf")
  #建构fitz提取文件矩阵
  zoom=2
  mat=fitz.Matrix(zoom, zoom)
  #page_no 设置为0
  page_no = 0
  #page在pdf文件中遍历
  for page in pdf_file:
      #获取每一页对应的图片pix (pix对象类似于我们上面看到的img对象，可以读取、修改它的 RGB)
      #page.get_pixmap() 这个操作是不可逆的，即能够实现从 PDF 到图片的转换，但修改图片 RGB 后无法应用到 PDF 上，只能输出为图片
      pix = page.get_pixmap(matrix=mat)

      #遍历图片中的宽和高，如果像素的rgb值总和等于631，就认为是水印，转换成255，255,255-->即白色
      for pos in product(range(pix.width), range(pix.height)):
          if sum(pix.pixel(pos[0], pos[1])) == 631:
              pix.set_pixel(pos[0], pos[1], (255, 255, 255))
      #保存去掉水印的截图，在执行文件下新建名为png的文件夹
      pix.pil_save(f"./png/{page_no}.png", dpi=(30000, 30000))
      #打印结果
      print(f'第 {page_no} 页去除完成')

      page_no += 1
if __name__ == '__main__':
    remove_pdfwatermark()
#图片所在的文件夹
pic_dir = 'png'

pdf = fitz.open()
#图片数字文件先转换成int类型进行排序
img_files = sorted(os.listdir(pic_dir), key=lambda x: int(str(x).split('.')[0]))
for img in img_files:
  print(img)
  imgdoc = fitz.open(pic_dir + '/' + img)
  #将打开后的图片转成单页pdf
  pdfbytes = imgdoc.convert_to_pdf()
  imgpdf = fitz.open("pdf", pdfbytes)
  #将单页pdf插入到新的pdf文档中
  pdf.insert_pdf(imgpdf)
pdf.save("完成.pdf")
pdf.close()

VinciYang

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python去水印操作

看到有很多去水印的资源，但是有的方程并不适合新的python，或者转化后的清晰度太低，所以在前人的代码上改了一下，让fitz打开时存储更多信息.至于如何确定水印RGB，推荐微信截图功能，在将pdf转换成图片时可以先查看一下，我转的pdf的水印大部分的RGB加起来是631，但是边缘还是会没被去除干净，所以也可以用>=而不是==。...
复制链接

扫一扫