Python scrapy的入门使用_python scrapy教程-CSDN博客

本文链接：https://blog.csdn.net/weixin_42291376/article/details/122548182

学习目标：
1.掌握 scrapy的安装；
2.应用创建scrapy的项目；
3.应用创建scrapy 爬虫；
4.应用运行scrapy爬虫；
5.应用 scrapy定位以及提取数据或属性值得方法；
6.掌握 response响应对象的常用属性；

1、安装scrapy

pip install scrapy

2、scrapy项目开发流程

1）、创建项目
scrapy startproject mySpider
2)、生产一个爬虫
scrapy genspider itcast itcast.cn
3)、提取数据：
根据网站结构在spider中实现数据采集相关内容
4）、保存数据：
使用pipeline进行数据后续处理和保存

3、创建项目

通过命令将scrapy项目的文件生产出来，后续步骤是在项目文件中进行相关操作，下面以抓取传智师资库来学习scrapy的入门使用：http://www.itcast.cn/channel/teacher.shtml

创建scrapy项目命令：
scrapy startproject<项目名字>
示例：
scrapy startproject myspider

生产的目录和文件结果如下：
在这里插入图片描述

4、创建爬虫

通过命令创建出爬虫文件，爬虫文件为注意的代码作业文件，通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令：
在项目路径下执行：
scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字：作为爬虫运行时的参数；
允许爬取的域名：为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。
示例：

cd myspider
scrapy genspider itcast itcast.cn

生产的目录和文件结果如下：

import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'

    alowed_domains = ['itcast.cn']

    start_urls = ['http://itcast.cn/']

    def parse(self,response):
        # 定义对于网站的相关操作
        with open('itcast.html','wb')as f:
            f.write(response.body)

import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'
    # 检查域名
    alowed_domains = ['itcast.cn']
    # 修改起始url
    start_urls = ['http://itcast.cn/channel/teacher.shtml#ajavaee']

    # 在parse方法中实现爬取逻辑
    def parse(self,response):
        # 定义对于网站的相关操作

        # with open('itcast.html','wb')as f:
        #     f.write(response.body)

        # 获取所有教师节点
        node_list = response.xpath('//div[@class="li_txt"')

        # 遍历教师节点列表
        for node in node_list:
            temp = {}

            # xpath方法返回的是选择器对象列表，extract()用于选择器对象中提取数据
            temp['name'] = node.xpath('./h3/text()').extract_first()
            temp['title'] = node.xpath('./h4/text()')[0].extract()
            temp['desc'] = node.xpath('./p/text()')[0].extract()

            # xpath结果为只含有一个值得类别，可以使用extract_frist(),如果为多个值则使用extract_first
            print(temp)
            break

注意：
scrapy.Spider爬虫类中必须有名为parse的解析；
如果网站结构层比较复杂，页可以自定义其他解析函数；
在解析函数中提取的url地址如果要发送请求，则必须属于allowed_domains范围内，但是start_urls中的url地址不受这个限制，我们会在后续的课程中学习如何在解析函数中构造发送请求；
启动爬虫的时候注意启动的位置，是在项目路径下启动；
parse(）函数中使用yield返回数据，注意：解析函数中yield能够传递的对象只能是：BaseItem,Request，dict，None。

4.2 定位元素以及提取数据，属性值得方法

解析并获取scrapy()中的数据：利用xpath规则字符串进行定位和提取。

1、response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法。
2、额外方法extract():返回一个包含有字符串的列表；
3、额外方法extract_first()：返回列表中的第一个字符串，列表为空没有返回None。

4.3 response 响应对象的常用属性

response.url：当前响应的url地址；
response.requst.url:当前响应对应的请求的url地址；
response.headers:响应头；
response.requests.headers:当前响应的请求头；
response.body:响应体，也就是html代码 byte类型；
response.status：响应状态码。

5、保存数据
利用管道pipeline来处理（保存）数据。

5.1 在pipelines.py文件中定义对数据的操作

1）、定义一个管道类；
2）、重写管道类的process_item方法；
3）、process_item方法处理完item之后必须返回给引擎；

# Define your item pipelines here
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See:http://doc.scrapy.org/en.latest/topics/item-pipeline.html
import json

class MyspiderPipeline(object):

    def __init__(self):
        self.file = open('itcast.json','w')

    def process_item(self,item,spider):

        # 将字典数据可视化
        json_data = json.dumps(item,ensure_ascii=False) + '\n'

        # 将数据写入文件
        print('itcast',item)

        # 默认使用完管道之后需要将数据返回给引擎

        return item

    def __del__(self):
        self.file.close()

6.2 在settings.py配置启用管道

ITEM_PIPELINES = {
	'myspider.pipelines.ItcastPipeline':400
}

配置项中键为使用的管道类，管道类使用进行分割，第一个为项目目录，第二个为文件，第三个位定义的管道类。
配置项中值为管道的使用顺序，设置的数值越小约优先执行，该值一般设置为1000以内。

6、运行scrapy
命令：在项目目录中scrapy crawl <爬虫名字>

示例：
scrapy crawl itcast