今天介绍下用 Python 去除 PDF (图片)的水印。思路很简单,代码也很简洁。
首先来考虑 Python 如何去除图片的水印,然后再将思路复用到 PDF 上面。
这张图片是前几天整理《数据结构和算法》PDF里的一个截图,带着公众号的水印。
从上图可以明显看到,为了不影响阅读正文,水印颜色一般比较浅。因此,我们可以利用颜色差这个特征来去掉水印。即:用 Python 读取图片的颜色,并将浅颜色部分变白。
Python 标准库 PIL 可以获取图片的颜色,Python2 是系统自带的,Python3 需要自己安装,我用的 Python 3.8,需要执行以下命令安装
pip install pillow
安装完成,读取图片,并获取图片的尺寸(宽度和高度)
from PIL import Image img = Image.open('watermark_pic.png') width, height = img.size
进行下一步之前,先简单介绍下计算机里关于颜色的知识。光学三原色是红绿蓝(RGB),也就是说它们是不可分解的三种基本颜色,其他颜色都可以通过这三种颜色混合而成,三种颜色等比例混合就是白