crawlspider的使用

最新推荐文章于 2023-05-25 15:11:29 发布

宋建国

最新推荐文章于 2023-05-25 15:11:29 发布

阅读量322

点赞数

本文链接：https://blog.csdn.net/hot7732788/article/details/88925144

版权

                    
                    常见爬虫 scrapy genspider -t crawl 爬虫名 allow_domain
指定start_url，对应的响应会进过rules提取url地址
完善rules，添加Rule Rule(LinkExtractor(allow=r’/web/site0/tab5240/info\d+.htm’), callback=‘parse_item’),
注意点: 
  url地址不完整，crawlspider会自动补充完整之后在请求
parse函数不能定义，他有特殊的功能需要实现
callback：连接提取器提取出来的url地址对应的响应交给他处理
follow：连接提取器提取出来的url地址对应的响应是否继续被rules来过滤