scrapy框架初识

最新推荐文章于 2023-12-02 13:05:44 发布

怕不是个弱智

最新推荐文章于 2023-12-02 13:05:44 发布

阅读量89

点赞数 1

分类专栏： python学习日记文章标签： python

本文链接：https://blog.csdn.net/qq_40127785/article/details/116504914

版权

python学习日记专栏收录该内容

21 篇文章 1 订阅

订阅专栏

scrapy框架初识

scrapy基础知识

scrapy框架的简单使用

案例：爬取58同城上海地区的租房信息

使用安装好的Anaconda 的黑窗进行框架项目创建

我使用的Anaconda开发环境，进入黑窗命令行，跳转到创建项目的文件夹。

使用scrapy startproject 项目名，完成基于scrappy框架的项目创建。

完成创建后，会在给定文件夹生成一个名为’项目名‘的项目文件夹
pycharm打开创建的项目

pycharm —》左上角file —》 open —》生成的项目文件夹

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XwYlb6i4-1620400165565)(C:\Users\95660\AppData\Roaming\Typora\typora-user-images\image-20210507200948865.png)]
pycharm指令行完成项目初始化（给定想要爬取的域名）

在pycharm开发环境下方的local指令行中，

输入scrapy genspider 爬虫名允许爬虫的域名

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F2c8fDRk-1620400165568)(C:\Users\95660\AppData\Roaming\Typora\typora-user-images\image-20210507201135965.png)]

该命令会在spiders包中生成一个爬虫文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k4RKX2k0-1620400165573)(C:\Users\95660\AppData\Roaming\Typora\typora-user-images\image-20210507205337708.png)]

指定需要爬取的字段，并作出限制

items.py 文件中添加字段

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class Five8Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #   字段title 接收租房信息
    title = scrapy.Field()
    #   字段area 接收户型和面积
    area = scrapy.Field()
    #   字段price 接收价格
    price = scrapy.Field()
    #   字段address 接收地址
    address = scrapy.Field()

完善数据提取方法

在爬虫名.py文件中使用xpath完成网页信息的解析

重写parse()方法

    def parse(self, response):
        li_list = response.xpath('/html/body/div[6]/div[2]/ul/li')
        for i in li_list:
            #   创建item对象，这里调用items.py中的Five8Item类
            item = Five8Item()
            #   item 对象中的title属性赋值
            content = i.xpath('./div[2]/h2/a/text()')
            if content:
                item['title'] = content.strip()
            else:
                item['title'] = None

            #   item 对象中的 area 属性赋值
            area_a = i.xpath('./div[2]/p[1]/text()').extract_first()
            if area_a:
                item['area'] = area_a.replace('                    \xa0\xa0\xa0\xa0', ' ').replace('\n','').strip()
            else:
                item['area'] = None
            #   item 对象中的  price 属性的赋值
            item['price'] = i.xpath('./div[3]/div[2]/b/text()').extract_first()
            #   item 对象中的 address 属性的赋值
            item['address'] = i.xpath('./div[2]/p[2]/a/text()').extract()
            print(item)
            yield item

        next_url = response.xpath('//*[@id="pager_wrap"]/div/a[last()]/@href').extract_first()
        yield scrapy.Request(url=next_url, callback=self.parse)

数据的保存

重写pipelines.py文件中的类


class Five8Pipeline:
    def __init__(self):
        self.file = open('58.json', 'w')

    def process_item(self, item, spider):
        #   在此处设置item对象的存储方式，注意：dict（）强制转换类型方法只有在scrapy框架中可以使用。
        self.file.write(json.dumps(dict(item),ensure_ascii=False) + ',\n')
        return item

    def sprider_close(self):
        self.file.close()

怕不是个弱智

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架初识

scrapy框架初识scrapy基础知识scrapy框架的简单使用案例：爬取58同城上海地区的租房信息使用安装好的Anaconda 的黑窗进行框架项目创建我使用的Anaconda开发环境，进入黑窗命令行，跳转到创建项目的文件夹。使用scrapy startproject 项目名，完成基于scrappy框架的项目创建。完成创建后，会在给定文件夹生成一个名为’项目名‘的项目文件夹pycharm打开创建的项目pycharm —》左上角file —》 open —》生成的项目文件夹
复制链接

扫一扫

专栏目录