Python爬虫实战：1000图库大全，新手也能实操

最新推荐文章于 2024-08-30 16:32:24 发布

iqifenxia

最新推荐文章于 2024-08-30 16:32:24 发布

阅读量1k

点赞数

文章标签：前端 html css

原文链接：https://www.fgba.net/forum-75-1.html

版权

　　今天给大家带来【爬虫实战100例】之41篇，爬虫之路永无止境。

　　爬取目标

　　网址：尺度有点大，遭不住...

　　

Python爬虫实战：1000图库大全，小白也能实操

　　效果展示

Python爬虫实战：1000图库大全，小白也能实操

　　工具准备

　　开发工具：pycharm 开发环境：python3.7， Windows11 使用工具包：requests

　　项目解析思路

　　获取当当前网页的跳转地址，当前页面为主页面数据，我们需要的数据别有一番天地，获取到网页信息提取出所有的跳转地址，获取到源码里的a标签就行当前网页的加载方式为静态数据，直接请求网页地址；

　　url='xxxx/

　　从源代码里提取到所有的跳转地址

　　

Python爬虫实战：1000图库大全，小白也能实操

　　提取的方式可自行选择，小编这里使用正则的方式提取数据，提取详情页面的地址以及标题，用来保存图片起名字，获取到进入详情页面的地址后对地址发送请求，详情页面的数据也分为很多的页面，每个页面有好几张图片，需要对网址进行拼接，构造出新的地址信息，

　　

Python爬虫实战：1000图库大全，小白也能实操

　　for i in range(1, int(page_num[0]) + 1): new_url=info_url.replace('.html', f'_{i}.html') jpg_data=requests.get(new_url, headers=headers).content.decode('gbk')

　　请求之后提取出所有的图片地址再对图片地址发送请求，保存数据大功告成！！

　　简易源码分享

　　'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36' url='xxxx/guoneimeinv/list_5_{}.html'.format(i) response=requests.get(url, headers=headers) data_list=re.findall('

', res)for i in range(1, int(page_num[0]) + 1): new_url=info_url.replace('.html', f'_{i}.html') jpg_data=requests.get(new_url, headers=headers).content.decode('gbk') jpg_url_list=re.findall('', jpg_data)for jgp_url in jpg_url_list: result=requests.get(jgp_url, headers=headers).content f=open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')print(f"正在下载{title}第{num}张")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。