Scrapy框架利用CrawlSpider创建自动爬虫

本文介绍了如何使用Scrapy的CrawlSpider框架来创建自动爬虫。CrawlSpider适用于有规律或无规律的网站,通过rules和Rule对象来定义爬取规则。Rule中的link_extractor配合allow、deny等参数实现链接的筛选,parse_start_url用于处理起始响应。通过设置这些参数,可以实现高效且有针对性的网络爬取。
摘要由CSDN通过智能技术生成

 一、适用条件

   可以对有规律或者无规律的网站进行自动爬取


 二、代码讲解 

 (1)创健scrapy项目

E:myweb>scrapy startproject mycwpjt
New Scrapy project 'mycwpjt', using template directory 'd:\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:
    D:\Python35\myweb\part16\mycwpjt
You can start your first spider with:
    cd mycwpjt
    scrapy genspider example example.com
 (2) 创健爬虫

E:\myweb>scrapy genspider -t crawl weisuen sohu.com
Created spider 'weisuen' using template 'crawl' in module:
  Mycwpjt.spiders.weisuen
(3)item编写

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值