2024年最新hr打压面试者，总说手机没有“好壁纸”，Python一次性抓取500张“美女”图片(1)，蚂蚁金服面试算法题-CSDN博客

本文链接：https://blog.csdn.net/2301_78416573/article/details/138104312

收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

正文

import re

设置保存路径

path = r’D:\test\picture_1\ ’

目标url

url = “http://pic.netbian.com/4kmeinv/index.html”

伪装请求头防止被反爬

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

正则匹配提取想要的数据得到图片链接和名称

img_info = re.findall(‘img src=“(.?)" alt="(.?)” /’, response.text)

for src, name in img_info:

img_url = ‘http://pic.netbian.com’ + src # 加上 'http://pic.netbian.com’才是真正的图片url

img_content = requests.get(img_url, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

复制代码

Xpath定位提取图片数据

代码实现：

import requests

from lxml import etree

设置保存路径

path = r’D:\test\picture_1\ ’

目标url

url = “http://pic.netbian.com/4kmeinv/index.html”

伪装请求头防止被反爬

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

复制代码

2.翻页爬取，实现批量下载

单线程版

import requests

from lxml import etree

import datetime

import time

设置保存路径

path = r’D:\test\picture_1\ ’

headers = {

“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1”,

“Referer”: “http://pic.netbian.com/4kmeinv/index.html”

}

start = datetime.datetime.now()

def get_img(urls):

for url in urls:

发送请求获取响应

response = requests.get(url, headers=headers)

打印网页源代码来看乱码重新设置编码解决编码问题

内容正常显示便于之后提取数据

response.encoding = ‘GBK’

html = etree.HTML(response.text)

xpath定位提取想要的数据得到图片链接和名称

img_src = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@src’)

列表推导式得到真正的图片url

img_src = [‘http://pic.netbian.com’ + x for x in img_src]

img_alt = html.xpath(‘//ul[@class=“clearfix”]/li/a/img/@alt’)

for src, name in zip(img_src, img_alt):

img_content = requests.get(src, headers=headers).content

img_name = name + ‘.jpg’

with open(path + img_name, ‘wb’) as f: # 图片保存到本地

print(f"正在为您下载图片：{img_name}")

f.write(img_content)

time.sleep(1)

def main():

要请求的url列表

url_list = [‘http://pic.netbian.com/4kmeinv/index.html’] + [f’http://pic.netbian.com/4kmeinv/index_{i}.html’ for i in range(2, 11)]

get_img(url_list)

delta = (datetime.datetime.now() - start).total_seconds()

print(f"抓取10页图片用时：{delta}s")

if name == ‘main’:

main()

复制代码

程序运行成功，抓取了10页的图片，共210张，用时63.682837s。

多线程版

import requests

from lxml import etree

import datetime

import time

import random

from concurrent.futures import ThreadPoolExecutor

设置保存路径

path = r’D:\test\picture_1\ ’

user_agent = [

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1”,

“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6”,

“Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6”,

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）
[外链图片转存中…(img-Xops1i4d-1713822952689)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！