python下载图片代码并解析_Python爬取小姐姐图片代码_批量下载

weixin_39782545

于 2021-02-09 18:00:25 发布

阅读量268

点赞数

文章标签： python下载图片代码并解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39782545/article/details/113968108

版权

本帖最后由 OnlineYx 于 2021-1-13 14:44 编辑

我试着改了一下，写了个循环和判断，输出起始网页的ID和结束网页的ID就能批量地下载小姐姐了。

001.png (83.38 KB, 下载次数: 0)

2021-1-12 18:46 上传

002.jpg (286.07 KB, 下载次数: 0)

2021-1-12 18:47 上传

003.jpg (260.96 KB, 下载次数: 0)

2021-1-12 18:47 上传

004.jpg (194.1 KB, 下载次数: 0)

2021-1-12 18:47 上传

[Python] 纯文本查看复制代码import os

import time

import requests

import re

headers = {

'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

'Accept-Encoding': 'gzip',

"Referer": "https://www.baidu.com/"

}

httpnum = int(input("请输入爬取网页的起始ID:"))

httpnum1 = int(input("请输入爬取网页的结束ID:"))

for i in range(httpnum,httpnum1+1):

httpurl = "https://www.vmgirls.com/{0}.html".format(i)

response = requests.get(httpurl, headers=headers)

html = response.text

if str("

continue

else:

dir_name = re.findall('

(.*?)

', html)[-1]

if not os.path.exists(dir_name):

os.mkdir(dir_name)

urls = re.findall('', html)

for url in urls:

time.sleep(1)

name = url.split('/')[-1]

response = requests.get("https:" + url, headers=headers)

print(name + "正在下载")

with open(dir_name + '/' + name, 'wb') as f:

f.write(response.content)

print("{0}下载完毕".format(i))

print("全部下载完毕")

-------------------------------------------------------------------------

刚刚又稍微改了一下代码，在目录前加上一个网页ID

[Python] 纯文本查看复制代码dir_name0 =re.findall('

(.*?)

', html)[-1]

dir_name=str(i)+dir_name0

001.png (49.7 KB, 下载次数: 0)

2021-1-13 10:56 上传

-------------------------------------------------------------------------

再次完善(关于正则部分)

爬取网页ID为12000之后的图片没有什么问题。

以网页ID12985为例

它的网页源代码图片部分是这样

003.png (43.48 KB, 下载次数: 0)

2021-1-13 14:35 上传

但是在ID12000之前的网页，图片部分的源代码是这样

004.png (48.75 KB, 下载次数: 0)

2021-1-13 14:39 上传

所以还需要加一个判断才能爬取到网页ID12000之前的图片

[Python] 纯文本查看复制代码urls = re.findall(' .*?

if len(urls)==0:

urls = re.findall('', html)

weixin_39782545

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python下载图片代码并解析_Python爬取小姐姐图片代码_批量下载

本帖最后由 OnlineYx 于 2021-1-13 14:44 编辑我试着改了一下，写了个循环和判断，输出起始网页的ID和结束网页的ID就能批量地下载小姐姐了。001.png (83.38 KB, 下载次数: 0)2021-1-12 18:46 上传002.jpg (286.07 KB, 下载次数: 0)2021-1-12 18:47 上传003.jpg (260.96 KB, 下载次数: 0)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。