Python scrapy的入门使用

学习目标:
1.掌握 scrapy的安装;
2.应用 创建scrapy的项目;
3.应用 创建scrapy 爬虫;
4.应用 运行scrapy爬虫;
5.应用 scrapy定位以及提取数据或属性值得方法;
6.掌握 response响应对象的常用属性;

1、安装scrapy

pip install scrapy

2、scrapy项目开发流程

1)、创建项目
scrapy startproject mySpider
2)、生产一个爬虫
scrapy genspider itcast itcast.cn
3)、提取数据:
根据网站结构在spider中实现数据采集相关内容
4)、保存数据:
使用pipeline进行数据后续处理和保存

3、创建项目

通过命令将scrapy项目的文件生产出来,后续步骤是在项目文件中进行相关操作,下面以抓取传智师资库来学习scrapy的入门使用:http://www.itcast.cn/channel/teacher.shtml

创建scrapy项目命令:
scrapy startproject<项目名字>
示例:
scrapy startproject myspider

生产的目录和文件结果如下:
在这里插入图片描述

4、创建爬虫

通过命令创建出爬虫文件,爬虫文件为注意的代码作业文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令:
在项目路径下执行:
scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字:作为爬虫运行时的参数;
允许爬取的域名:为对于爬虫设置的爬取范围,设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。
示例:

cd myspider
scrapy genspider itcast itcast.cn

生产的目录和文件结果如下:

import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'

    alowed_domains = ['itcast.cn']

    start_urls = ['http://itcast.cn/']

    def parse(self,response):
        # 定义对于网站的相关操作
        with open('itcast.html','wb')as f:
            f.write(response.body)
import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'
    # 检查域名
    alowed_domains = ['itcast.cn']
    # 修改起始url
    start_urls = ['http://itcast.cn/channel/teacher.shtml#ajavaee']

    # 在parse方法中实现爬取逻辑
    def parse(self,response):
        # 定义对于网站的相关操作

        # with open('itcast.html','wb')as f:
        #     f.write(response.body)

        # 获取所有教师节点
        node_list = response.xpath('//div[@class="li_txt"')

        # 遍历教师节点列表
        for node in node_list:
            temp = {}

            # xpath方法返回的是选择器对象列表,extract()用于选择器对象中提取数据
            temp['name'] = node.xpath('./h3/text()').extract_first()
            temp['title'] = node.xpath('./h4/text()')[0].extract()
            temp['desc'] = node.xpath('./p/text()')[0].extract()

            # xpath结果为只含有一个值得类别,可以使用extract_frist(),如果为多个值则使用extract_first
            print(temp)
            break

注意:
scrapy.Spider爬虫类中必须有名为parse的解析;
如果网站结构层比较复杂,页可以自定义其他解析函数;
在解析函数中提取的url地址如果要发送请求,则必须属于allowed_domains范围内,但是start_urls中的url地址不受这个限制,我们会在后续的课程中学习如何在解析函数中构造发送请求;
启动爬虫的时候注意启动的位置,是在项目路径下启动;
parse()函数中使用yield返回数据,注意:解析函数中yield能够传递的对象只能是:BaseItem,Request,dict,None。

4.2 定位元素以及提取数据,属性值得方法

解析并获取scrapy()中的数据:利用xpath规则字符串进行定位和提取。

1、response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法。
2、额外方法extract():返回一个包含有字符串的列表;
3、额外方法extract_first():返回列表中的第一个字符串,列表为空没有返回None。

4.3 response 响应对象的常用属性

response.url:当前响应的url地址;
response.requst.url:当前响应对应的请求的url地址;
response.headers:响应头;
response.requests.headers:当前响应的请求头;
response.body:响应体,也就是html代码 byte类型;
response.status:响应状态码。

5、保存数据
利用管道pipeline来处理(保存)数据。

5.1 在pipelines.py文件中定义对数据的操作

1)、定义一个管道类;
2)、重写 管道类的process_item方法;
3)、process_item方法处理完item之后必须返回给引擎;

# Define your item pipelines here
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See:http://doc.scrapy.org/en.latest/topics/item-pipeline.html
import json

class MyspiderPipeline(object):

    def __init__(self):
        self.file = open('itcast.json','w')

    def process_item(self,item,spider):

        # 将字典数据可视化
        json_data = json.dumps(item,ensure_ascii=False) + '\n'

        # 将数据写入文件
        print('itcast',item)

        # 默认使用完管道之后需要将数据返回给引擎

        return item

    def __del__(self):
        self.file.close()

6.2 在settings.py配置启用管道

ITEM_PIPELINES = {
	'myspider.pipelines.ItcastPipeline':400
}

配置项中键为使用的管道类,管道类使用进行分割,第一个为项目目录,第二个为文件,第三个位定义的管道类。
配置项中值为管道的使用顺序,设置的数值越小约优先执行,该值一般设置为1000以内。

6、运行scrapy
命令:在项目目录中scrapy crawl <爬虫名字>

示例:
scrapy crawl itcast

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值