在自己的爬虫处理文件中的应用:
import scrapy
# 导入CrawlSpider类和Rule
from scrapy.spiders import CrawlSpider, Rule
# 导入链接规则匹配类,用来提取符合规则的连接
from scrapy.linkextractors import LinkExtractor
from xxxxSpider.items import xxxItem
class xxxxSpider(CrawlSpider):
name = "xxx"
allow_domains = ["xxx"]
start_urls = ["xxxx"]
# Response里链接的提取规则,返回的符合匹配规则的链接匹配对象的列表 匹配出正则
pagelink = LinkExtractor(allow=("start=\d+"))
rules = [
# 获取这个列表里的链接,依次发送请求,并且继续跟进,调用指定回调函数处理
Rule(pagelink, callback = "parsexxx", follow = True)
]
# 指定的回调函数
def parsexxx(self, response):
.......
yield item
2:在settings.py 设置日志,以及日志级别
# 保存日志信息的文件名
LOG_FILE = "xxx.log"
# 保存日志等级,低于|等于此等级的信息都被保存
LOG_LEVEL = "DEBUG"
查看日志 tail -f xxx.log 查看日志输出