2024年Python最新总说手机没有“好壁纸”，Python一次性抓取500张“美女”图片

2401_84692253

于 2024-05-01 12:18:35 发布

阅读量1k

点赞数 24

分类专栏：程序员文章标签： python 美女开发语言

本文链接：https://blog.csdn.net/2401_84692253/article/details/138370313

版权

程序员专栏收录该内容

109 篇文章 0 订阅

订阅专栏

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

复制代码

Xpath定位提取图片数据

代码实现：

import requests

from lxml import etree

设置保存路径

path = r’D:\test\picture_1\ ’

目标url

url = “http://pic.netbian.com/4kmeinv/index.html”

伪装请求头防止被反爬

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

复制代码

2.翻页爬取，实现批量下载

单线程版

import requests

from lxml import etree

import datetime

import time

设置保存路径

path = r’D:\test\picture_1\ ’

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

start = datetime.datetime.now()

def get_img(urls):

for url in urls:

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

time.sleep(1)

def main():

要请求的url列表

url_list = [‘http://pic.netbian.com/4kmeinv/index.html’] + [f’http://pic.netbian.com/4kmeinv/index_{i}.html’ for i in range(2, 11)]

get_img(url_list)

delta = (datetime.datetime.now() - start).total_seconds()

print(f"抓取10页图片用时：{delta}s")

if name == ‘main’:

main()

复制代码

程序运行成功，抓取了10页的图片，共210张，用时63.682837s。

多线程版

import requests

from lxml import etree

import datetime

import time

import random

from concurrent.futures import ThreadPoolExecutor

设置保存路径

path = r’D:\test\picture_1\ ’

user_agent = [

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6”,

“Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1”,

“Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3”,

“Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24”

]

start = datetime.datetime.now()

def get_img(url):

headers = {

“User-Agent”: random.choice(user_agent),

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84692253

关注

24
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

2024年Python最新总说手机没有“好壁纸”，Python一次性抓取500张“美女”图片

设置保存路径

目标url

伪装请求头 防止被反爬

发送请求 获取响应

打印网页源代码来看 乱码 重新设置编码解决编码问题

内容正常显示 便于之后提取数据

xpath定位提取想要的数据 得到图片链接和名称

列表推导式 得到真正的图片url

设置保存路径

发送请求 获取响应

打印网页源代码来看 乱码 重新设置编码解决编码问题

内容正常显示 便于之后提取数据

xpath定位提取想要的数据 得到图片链接和名称

列表推导式 得到真正的图片url

print(f"正在为您下载图片：{img_name}")

要请求的url列表

设置保存路径

发送请求 获取响应

打印网页源代码来看 乱码 重新设置编码解决编码问题

内容正常显示 便于之后提取数据

简历模板

伪装请求头防止被反爬

发送请求获取响应

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

xpath定位提取想要的数据得到图片链接和名称

列表推导式得到真正的图片url

发送请求获取响应

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

xpath定位提取想要的数据得到图片链接和名称

列表推导式得到真正的图片url

发送请求获取响应

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据