scrapy-CrawlSpider类初试

最新推荐文章于 2023-06-28 10:42:36 发布

Circle_list

最新推荐文章于 2023-06-28 10:42:36 发布

阅读量243

点赞数

分类专栏： script

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Circle_list/article/details/79641522

版权

script 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

在自己的爬虫处理文件中的应用：

import scrapy
# 导入CrawlSpider类和Rule
from scrapy.spiders import CrawlSpider, Rule
# 导入链接规则匹配类，用来提取符合规则的连接
from scrapy.linkextractors import LinkExtractor

from xxxxSpider.items import xxxItem

class xxxxSpider(CrawlSpider):

name = "xxx"

allow_domains = ["xxx"]

start_urls = ["xxxx"]

# Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表匹配出正则

pagelink = LinkExtractor(allow=("start=\d+"))

rules = [
# 获取这个列表里的链接，依次发送请求，并且继续跟进，调用指定回调函数处理
Rule(pagelink, callback = "parsexxx", follow = True)

]

# 指定的回调函数

def parsexxx(self, response):

.......

yield item

2:在settings.py 设置日志，以及日志级别

# 保存日志信息的文件名
LOG_FILE = "xxx.log"
# 保存日志等级，低于|等于此等级的信息都被保存

LOG_LEVEL = "DEBUG"

查看日志 tail -f xxx.log 查看日志输出

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy-CrawlSpider类初试

在自己的爬虫处理文件中的应用：import scrapy# 导入CrawlSpider类和Rulefrom scrapy.spiders import CrawlSpider, Rule# 导入链接规则匹配类，用来提取符合规则的连接from scrapy.linkextractors import LinkExtractorfrom xxxxSpider.items import xxxItemc...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。