都2020年了,爬虫党还在为了图片的下载质量烦恼吗?还是只会下载JPG图片?那我有一种另类方式可以帮助你真正的白嫖高质量图片,肝了一个礼拜的干货,绝对能改变你对爬虫的看法和思考,原来爬虫这么有趣,也不会这么思维固然,代码方式尽量简单一点,让大家能看懂,加油各位!
防止有人说我标题党,我先给图致敬,绝对是4k以上画质,作假的剁手!
.
技术分析:
爬虫还用JPG?
这个另类技术设计到一点值得我们思考,我们每次爬虫保存的图片都是默认JPG,为什么
- 先不管他们的定义是什么,简单来说,JPG就是一种有损压缩技术,在符合所需画质的前提下,尽可能的提高压缩比,来减少储存空间,所以传输速度快,文件小,画质低,这也就是网站为什么都用JPG来存储图片了。
- 而PNG我定义就是一种
大保健
,他能保存完整的画质,也就是相对无损压缩技术,缺点也就是存储空间大,保留了很多原始通道,所以网站不采用,爬虫教学也不采用。 - 而位图的定义,理论上是可以无限放大的,JPG作为位图自然是糟糕的选择,而PNG确实是一个完美的搭档,这里我就
钻了这个空子
,用了这种方式搞定了高清图库。 - 采用这种方式,我不是吹嘘我有多厉害,可能有人想过,但是我只是分享这种方式给更多的朋友,改善他们的固有思维,如果你想要小图片的话保存JPG也是很好的选择,而我喜欢
高清大图
,我采用的是PIL库的Image类的操作,下面我会给出很好的解释。这是一个全站点图片爬取的爬虫,速度可能有点慢,我尽力使用了线程池,谢谢理解!
技术关键代码:
存储为位图,然后无损放大图片,就可以得到我们的效果了,还不懂的留言问我。
with open(''.join(name) + '.png', 'wb') as fw:
fw.write(rr.conten