爬虫爬取妹子图片（入门篇）

最新推荐文章于 2024-04-27 10:32:43 发布

程序员吴同学

最新推荐文章于 2024-04-27 10:32:43 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/Liang_ming_/article/details/107097992

python 同时被 2 个专栏收录

27 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

本文详细介绍使用Scrapy框架爬取特定网站图片的过程，包括项目搭建、配置设置、请求发送及图片下载等关键步骤。

python 爬虫如果不尝试一下爬取漂亮妹子的图片，那怎么能算得上真正的爬虫呢？
下面就一起来尝试一下吧。（绝对领域）
观看一下网站首页（是不是很刺激啊，动手吧）

这里介绍使用scrapy框架进行爬取全网的图片，如果想要使用requests模块进行爬取也是可以的，毕竟这个网站的爬取还是非常的简单。

1.建立一个新的项目，选择一个文件夹在给文件夹中新建一个项目，打开终端（win+R 输入cmd ），切换到该文件的路径下，输入命令。

scrapy startproject projectname         # 项目名称按照自己的想法定

# 例如：
scrapy startproject juedui

2.打开pycharm ，切换到当前项目路径下，如下所示（file----open----之后选择自己的项目路径）
在这里插入图片描述
3.打开setting文件，设置setting文件中的配置信息。（大部分信息都是处于注释状态，需要用到的信息就打开）
（设置头部，打开中间件，机器人协议……）
设置头部信息：

修改机器人协议（只用于学习，暂时不遵循）（把注释去掉）
同时设置输出信息的权限，使得输出的信息的权限不低于WARNING（警告）（这样子输出的内容就能够少去很多不必要信息）（自行添加）
在这里插入图片描述
设置中间的权重

4.书写爬虫处理文件，以及发起请求（juedui文件下的spider文件下的爬虫文件）
全部代码如下：

# -*- coding: utf-8 -*-
import scrapy,json,parsel,re,requests,os
from ..items import JueduiItem
from fake_useragent import UserAgent

ua = UserAgent()
header = {"User-Agent":ua.random}

class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jdlingyu.mobi']
    start_urls = ['https://www.jdlingyu.mobi']

    # 主页面的分析，提取列表页面url
    def parse(self, response):
        url_lsit = response.xpath('//div[@class="grid-bor"]//div[@class="pos-r cart-list"]')
        print(len(url_lsit))
        for url in url_lsit:
            item = JueduiItem()
            item['pageTitle'] = url.xpath('.//h2[@class="entry-title"]/a/text()').extract_first()
            item['pageUrl'] = url.xpath('.//h2[@class="entry-title"]/a/@href').extract_first()
            yield scrapy.Request(
                item['pageUrl'],
                callback=self.page_parse,
                meta={"item":item}
            )
        page = response.xpath('//div[@id="primary-home"]/@data-pages').extract_first()
        if page == None:                            # 获取该URL下的总页数
            page = response.xpath('//page-nav').extract_first()
            mold = re.findall('nav-type="(.*?)"',page)[0]
            page = re.findall('pages="(.*?)"',page)[0]
            print("page:",page,"type:",mold)
        for i in range(2,3):              # 逐个发起请求   int(page)+1
            yield scrapy.FormRequest(
                "https://www.jdlingyu.mobi/wp-admin/admin-ajax.php?action=zrz_load_more_posts",
                formdata={"type":mold,"paged":str(i)},
                callback=self.page_parse1,
            )

    # 对使用post请求发送得到的页面进行同样的分析
    def page_parse1(self,response):
        res = json.loads(response.body.decode())
        img = res['msg']
        html = parsel.Selector(img)
        url_lsit = html.xpath('//h2')
        for url in url_lsit:
            item = JueduiItem()
            item['pageTitle'] = url.xpath('.//a/text()').extract_first()
            item['pageUrl'] = url.xpath('.//a/@href').extract_first()
            yield scrapy.Request(
                item['pageUrl'],
                callback=self.page_parse,
                meta={'item':item}
            )


    # 提取文章中的图片URL，以及下载图片
    def page_parse(self,response):
        item = response.meta['item']
        item['imgUrl'] = response.xpath('//div[@id="content-innerText"]//img/@src').extract()
        print(item['pageTitle'])
        # print(item['imgUrl'])         # 图片URL
        for url in item['imgUrl']:
            res = requests.get(url,headers=header)
            #  把图片保存到本地硬盘中，文件路径按照自己电脑来写
            if not os.path.exists(r"F:\相片\绝对领域/"+item['pageTitle']):   # 这个地址自己设置自己的本地地址
                os.makedirs(r"F:\相片\绝对领域/"+item['pageTitle'])
            with open(r"F:\相片\绝对领域/"+item['pageTitle']+'/'+url.split('/')[-1],"wb") as fp:
                fp.write(res.content)