python之绝对领域全站美女图片，你要嘚“ 福利 “这里都有

最新推荐文章于 2024-05-31 10:12:50 发布

茜茜是帅哥

最新推荐文章于 2024-05-31 10:12:50 发布

阅读量2.5k

点赞数 1

分类专栏： python爬虫文章标签： python pycharm

本文链接：https://blog.csdn.net/m0_72282564/article/details/129422133

版权

python爬虫专栏收录该内容

111 篇文章 16 订阅

订阅专栏

前言

嗨喽，大家好呀~这里是爱看美女的茜茜呐

看来标题想必你们都等不及了，那么话不多说

让我们赶快冲起来吧~

本文章完整源码直接在文末名片领取。点击此处跳转

本次亮点:

1、系统性分析页面

2、多页面数据解

3、海量图片数据保存

开发环境 & 第三方模块:

解释器版本 >>> python 3.8
代码编辑器 >>> pycharm 2021.2
requests >>> pip install requests
parsel >>> pip install parsel

pa chong基础:

什么是pa chong

采集数据的一项技术 (图片/文本/音频/视频)

模拟人的操作(点赞评论只要你能够通过网页或者app实现的爬虫都可以批量实现)
pa chong的原理是什么?

模拟成客户端向服务器发送网络请求 (访问网站)

实现一个采集案例?

一. 思路分析

找到需要爬取的数据来源

静态数据: 所有的内容基本都在网页源代码当中

访问到这个 https://www.jdlingyu.com/tuji 数据就在这里

获取所有相册详情页的链接

挨个访问, 将每个相册详情页里面的图片取出来

保存图片

动态数据(network抓包分析)

二. 代码实现

发送请求访问的是列表页面
获取数据列表页面源代码
解析数据详情页的链接拿到
发送请求访问所有详情页链接
获取数据获取到详情页里面的源代码
解析数据提取出详情页源代码里面的图片链接
保存数据

代码展示

导入模块

import requests
import parsel

批量爬取

for page in range(1, 504):

请求链接

    url = f'https://www.jdlingyu.com/tuji/page/{page}'

发送请求访问的是列表页面

    response = requests.get(url)

获取数据列表页面源代码

    html_data = response.text

解析数据拿到详情页的链接

    # .post-info h2 a
    # css/xpath/re
    select = parsel.Selector(html_data)
    detailUrlList = select.css('.post-info h2 a::attr(href)').getall()
    # print(detailUrlList)
    for detailUrl in detailUrlList:

发送请求访问所有详情页链接

        resp = requests.get(detailUrl)

获取数据获取到详情页里面的源代码

        detail_html = resp.text

解析数据提取出详情页源代码里面的图片链接

        select_2 = parsel.Selector(detail_html)
        img_list = select_2.css('.entry-content img::attr(src)').getall()
        print(img_list)
        for img in img_list:

保存数据图片

            img_data = requests.get(img).content
            img_name = img.split('/')[-1]
            open(f'img/{img_name}', mode='wb').write(img_data)