爬取彼岸壁纸

m0_73760329

已于 2024-08-06 20:03:27 修改

阅读量342

点赞数 3

文章标签： vscode 正则表达式网络爬虫

于 2024-08-06 19:45:57 首次发布

本文链接：https://blog.csdn.net/m0_73760329/article/details/140964464

版权

import requests

import os

import re

import time

url_base = 'http://www.netbian.com'

headers = {

'User-Agent:':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',

}

# 分析网页结构

# 第1页：http://www.netbian.com/index.htm

# 第3页：http://www.netbian.com/index_3.htm

# 第8页：http://www.netbian.com/index_8.htm

# 第i页：

# f'http://www.netbian.com/index_{i}.htm'

# <a href="/desk/30948-1920x1080.htm" target="_blank"><img src="http://img.netbian.com/file/2023/0427/112808gmtzD.jpg" alt="王者荣耀妲己九尾狐皮肤超清无水印电脑壁纸" title="王者荣耀妲己九尾狐皮肤超清无水印电脑壁纸"></a>

# <a href="/desk/30935-1920x1080.htm" target="_blank"><img src="http://img.netbian.com/file/2023/0426/203306JXA7z.jpg" alt="海边橙色兰博基尼跑车高清电脑壁纸" title="海边橙色兰博基尼跑车高清电脑壁纸"></a>

# <a href="/desk/.*?-1920x1080.htm" target="_blank"><img src="(.*?)" alt=".*?" title=".*?"></a>

# 给爬取到的图片编号命名

num = 1

os.makedirs('./img_bian',exist_ok=True)

# 第1页列表页提取规则

# <li><a href="/desk/30922.htm"title="大海棕榈树海滩沙滩帆船岛插图风景动漫壁纸"

# <li><a href="/desk/30909.htm"title="灌篮高手人物大全图片高清壁纸"

# <li><a href="/desk/30910.htm"title="美女刘亦菲2023年5月日历高清桌面壁纸"

# <li><a href="(.*?)"title=".*?"

# 第2页列表页提取规则

# <li><a href="/desk/30909.htm"title="灌篮高手人物大全图片高清壁纸"

# <li><a href="/desk/30915.htm" title="雪境之森可爱女孩白夜极光壁纸更新时间：2023-04-25"

# 第7页列表页提取规则

# <li><a href="/desk/30674.htm" title="跑车动态壁纸电脑桌面更新时间：2023-04-04"

# 结论：从第2页开始，列表页提取规则相比第一页,title属性前多了一个空格

# 用来实现多页爬取

# 测试用

# for i in range(1,2):

# 正式版

for i in range(1,21):

if i == 1:

url_page = 'http://www.netbian.com/index.htm'

response = requests.get(url_page,headers)

# print(response.encoding)

response.encoding = 'gbk'

# print(response.encoding)

# 下面调试代码，正式程序中屏蔽

# with open('./img_bian/彼岸第一页.txt','w',encoding='utf-8') as f:

# f.write(response.text)

pattern = '<li><a href="(.*?)"title=".*?"'

res_list = re.findall(pattern,response.text)

# 调试代码，正式版屏蔽

# print(len(res_list))

# print(res_list)

# 爬取22张壁纸图片的详情页响应

# 测试版

# for j in range(1):

# 正式版

for j in range(len(res_list)):

url_detail = url_base + res_list[j]

# print(url_detail)

response_detail = requests.get(url_detail,headers)

# 防止乱码，更改编码方式

response_detail.encoding = 'gbk'

# 测试用代码，正式版屏蔽

# with open('./img_bian/第一幅图片网页源代码.txt','w',encoding='utf-8') as f:

# f.write(response_detail.text)

time.sleep(1)

pattern_detail = '<a href="/desk/.*?-1920x1080.htm" target="_blank"><img src="(.*?)" alt=".*?" title=".*?"></a>'

img_url = re.findall(pattern_detail,response_detail.text)[0]

# print(img_url)

# 请求图片数据并保存图片

image_data = requests.get(img_url,headers).content

print(f'正在下载第{i}页第{num}张图片......')

time.sleep(1)

with open(f'./img_bian/{num}.jpg','wb') as file:

file.write(image_data)

num = num + 1

else:

url_page = f'http://www.netbian.com/index_{i}.htm'

response = requests.get(url_page,headers)

# print(response.encoding)

response.encoding = 'gbk'

# print(response.encoding)

# 下面调试代码，正式程序中屏蔽

# with open('./img_bian/彼岸第2页.txt','w',encoding='utf-8') as f:

# f.write(response.text)

# 不同于第一页有22张图片,从第2页开始每一页只有19张图片,检查其提取规则也有小差别

pattern = '<li><a href="(.*?)" title=".*?" target="_blank"><img src="'

res_list = re.findall(pattern,response.text)

# 调试代码，正式版屏蔽

# print(len(res_list))

# print(res_list)

# 爬取19张壁纸图片的详情页响应

# 测试版

# for j in range(1):

# 正式版

for j in range(len(res_list)):

url_detail = url_base + res_list[j]

# print(url_detail)

response_detail = requests.get(url_detail,headers)

# 防止乱码，更改编码方式

response_detail.encoding = 'gbk'

# 测试用代码，正式版屏蔽

# with open('./img_bian/第一幅图片网页源代码.txt','w',encoding='utf-8') as f:

# f.write(response_detail.text)

time.sleep(1)

pattern_detail = '<a href="/desk/.*?-1920x1080.htm" target="_blank"><img src="(.*?)" alt=".*?" title=".*?"></a>'

img_url = re.findall(pattern_detail,response_detail.text)[0]

# print(img_url)

# 请求图片数据并保存图片

image_data = requests.get(img_url,headers).content

print(f'正在下载第{i}页第{num}张图片......')

time.sleep(1)

with open(f'./img_bian/{num}.jpg','wb') as file:

file.write(image_data)

num = num + 1

m0_73760329

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫