Python爬虫编程思想(146):创建和使用Scrapy工程

本文介绍了如何使用Scrapy命令创建Scrapy工程,并在工程中编写Spider程序。Scrapy通过`startproject`命令生成包含特定目录结构的工程,主要工作集中在`spiders`目录中的Spider脚本。每个Spider类需要继承`scrapy.Spider`,设置`name`属性和`start_urls`列表来指定抓取目标。当抓取Url后,`parse`方法会被调用来处理HTML内容。最后,通过`scrapy crawl`命令运行Spider并观察输出,确认爬虫已成功抓取并解析了指定的Web资源。
摘要由CSDN通过智能技术生成

        Scrapy框架提供了一个scrapy命令用来建立Scrapy工程,可以使用下面的命令建立一个名为myscrapy是Scrapy工程。

scrapy startproject myscrapy

        执行上面的命令后,会在当前目录下创建一个myscrapy子目录。在myscrapy目录中还有一个myscrapy子目录,在该目录中有一堆子目录和文件,这些目录和文件就对应了图19-1所示的各部分。例如,spiders目录就对应了网络爬虫,其他的目录和文件先不用管。因为使用Scrapy框架编写网络爬虫的主要工作就是编写Spider。所有的Spider脚本文件都要放到spiders目录中。

        下面的例子会在spiders目录中建立一个firstSpider.py脚本文件,这是一个Spider程序,在该程序中会指定要抓取的Web资源的Url。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值