scrapy框架进阶三

littlespider889

已于 2022-03-10 07:59:21 修改

阅读量251

点赞数 1

分类专栏： python scrapy 文章标签： python

于 2020-06-26 17:34:22 首次发布

本文链接：https://blog.csdn.net/littlespider889/article/details/106972398

版权

python 同时被 2 个专栏收录

156 篇文章 9 订阅

订阅专栏

scrapy

6 篇文章 0 订阅

订阅专栏

Scrapy log信息的认知
Scrapy shell
Scrapy settings说明和配置
Scrapy CrawlSpider说明

1.Scrapy log信息的认知
在这里插入图片描述

Scrapy shell
Scrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath表达式
使用方法：
scrapy shell https://www.baidu.com/

response.url:当前相应的URL地址
response.request.url:当前相应的请求的URL地址
response.headers:响应头
response.body:响应体，也就是HTML代码，默认是byte类型
response.requests.headers:当前响应的请求头

Scrapy settings说明和配置
为什么需要配置文件：
配置文件存放一些公共的变量(比如数据库的地址，账号密码等)
方便自己和别人修改
一般用全大写字母命名变量名 SQL_HOST = ‘192.168.0.1’
settings文件详细信息：https://www.cnblogs.com/cnkai/p/7399573.html
Scrapy CrawlSpider说明
之前的代码中，我们有很大一部分时间在寻找下一页的URL地址或者内容的URL地址上面，这个过程能更简单一些吗？
思路：
1.从response中提取所有的li标签对应的URL地址
2.自动的构造自己resquests请求，发送给引擎
目标：通过爬虫了解crawlspider的使用
生成crawlspider的命令：scrapy genspider -t crawl 爬虫名字域名
4.1 LinkExtractors链接提取器
使用LinkExtractors可以不用程序员自己提取想要的url，然后发送请求。这些工作都可以交给LinkExtractors，他会在所有爬的页面中找到满足规则的url，实现自动的爬取。

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要参数讲解：
• allow：允许的url。所有满足这个正则表达式的url都会被提取。
• deny：禁止的url。所有满足这个正则表达式的url都不会被提取。
• allow_domains：允许的域名。只有在这个里面指定的域名的url才会被提取。
• deny_domains：禁止的域名。所有在这个里面指定的域名的url都不会被提取。
• restrict_xpaths：严格的xpath。和allow共同过滤链接。
4.2 Rule规则类
定义爬虫的规则类。

class scrapy.spiders.Rule(
    link_extractor, 
    callback = None, 
    cb_kwargs = None, 
    follow = None, 
    process_links = None, 
    process_request = None
)

主要参数讲解：
• link_extractor：一个LinkExtractor对象，用于定义爬取规则。
• callback：满足这个规则的url，应该要执行哪个回调函数。因为CrawlSpider使用了parse作为回调函数，因此不要覆盖parse作为回调函数自己的回调函数。
• follow：指定根据该规则从response中提取的链接是否需要跟进。
• process_links：从link_extractor中获取到链接后会传递给这个函数，用来过滤不需要爬取的链接。

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class YgSpider(CrawlSpider):
    name = 'yg'
    allowed_domains = ['sun0769.com']
    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=0']

    rules = (
        Rule(LinkExtractor(allow=r'wz.sun0769.com/html/question/201811/\d+\.shtml'), callback='parse_item'),
        Rule(LinkExtractor(allow=r'http:\/\/wz.sun0769.com/index.php/question/questionType\?type=4&page=\d+'), follow=True),
    )

    def parse_item(self, response):
        item = {}
        item['content'] = response.xpath('//div[@class="c1 text14_2"]//text()').extract()
        print(item)

littlespider889

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架进阶三

Scrapy log信息的认知Scrapy shellScrapy settings说明和配置Scrapy CrawlSpider说明1.Scrapy log信息的认知Scrapy shellScrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath表达式使用方法：scrapy shell https://www.baidu.com/response.url:当前相应的URL地址response.request.url:当前
复制链接

扫一扫

专栏目录