四、网络爬虫之框架(2)

1.Scrapy爬虫的第一个实例

演示HTML页面地址:http://python123.io/ws/demo.html
文件名称:demo.html

生产步骤

应用Scrapy爬虫框架主要是编写配置型代码

步骤1:建立一个Scrapy爬虫工程

选取一个目录(D:\pycodes\),然后执行如下命令:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

步骤2:在工程中产生一个Scrapy爬虫

进入工程目录(D:\pycodes\python123demo),然后执行如下命令:
在这里插入图片描述
该命令作用:
(1) 生成一个名称为demo的spider
(2) 在spiders目录下增加代码文件demo.py
该命令仅用于生成demo.py,该文件也可以手工生成
在这里插入图片描述

步骤3:配置产生的spider爬虫

配置:(1)初始URL地址 (2)获取页面后的解析方式

import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']#设置地址

    def parse(self, response):
        fname = response.url.split('/')[-1]#存为HTML文件
        with open(fname,'wb') as f:
            f.write(response.body)
        self.log('save file %s.' % name)
        

步骤4:运行爬虫,获取网页

在命令行下,执行如下命令:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.yield关键字的使用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

为什么要有生成器

生成器相比一次列出所有内容的优势:
1)更节省存储空间
2)响应更迅速
3)使用更灵活

3.scrapy的基本使用

使用步骤

步骤1:创建一个工程和Spider模板
步骤2:编写Spider
步骤3:编写Item Pipeline
步骤4:优化配置策略

scrapy爬虫的数据类型

Request类

class scrapy.http.Request()
Request对象表示一个HTTP请求
由Spider生成,由Downloader执行
在这里插入图片描述

Response类

class scrapy.http.Response()
Response对象表示一个HTTP响应
由Downloader生成,由Spider处理
在这里插入图片描述

Item类

class scrapy.item.Item()
Item对象表示一个从HTML页面中提取的信息内容
由Spider生成,由Item Pipeline处理
Item类似字典类型,可以按照字典类型操作

scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML信息提取方法:
• Beautiful Soup
• lxml
• re
• XPath Selector
• CSS Selector

CSS Selector

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值