python爬虫框架scrapy案例分析

最新推荐文章于 2024-08-05 10:37:56 发布

bug山下的孙小空

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量2.3k

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_44551298/article/details/123999317

版权

本文介绍了Python爬虫框架Scrapy的使用，包括项目生成、爬取网页、解析内容及自定义回调函数。通过示例详细讲解了如何创建spider、设置start_urls、解析HTML内容并保存数据到items。此外，还探讨了CrawlSpider类的rules属性，用于自动跟踪链接，以及pipelines在过滤和存储item中的应用。

摘要由CSDN通过智能技术生成

1.生成项目

scrapy提供一个工具来生成项目，生成的项目中预置了一些文件，用户需要在这些文件中添加自己的代码。

打开命令行，执行：scrapy startproject tutorial，生成的项目类似下面的结构

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...

scrapy.cfg是项目的配置文件

用户自己写的spider要放在spiders目录下面，一个spider类似

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

name属性很重要，不同spider不能使用相同的name

start_urls是spider抓取网页的起始点，可以包括多个url

parse方法是spider抓到一个网页以后默认调用的callback，避免使用这个名字来定义自己的方法。

当spider拿到url的内容以后，会调用parse方法，并且传递一个response参数给它，response包含了抓到的网页的内容，在parse方法里，你可以从抓到的网页里面解析数据。上面的代码只是简单地把网页内容保存到文件。

2.开始抓取