爬虫利器Scrapy框架：2:使用runspider运行爬虫

最新推荐文章于 2024-07-18 10:39:50 发布

淼叔

最新推荐文章于 2024-07-18 10:39:50 发布

阅读量1.7k

点赞数

分类专栏： # Scrapy

本文链接：https://blog.csdn.net/liumiaocn/article/details/105155080

版权

本文介绍如何在Scrapy框架下运行爬虫，包括创建简单的爬虫示例代码，理解创建工程与自包含运行的区别，以及使用`scrapy runspider`命令执行爬虫的步骤和示例。

摘要由CSDN通过智能技术生成

在这里插入图片描述
在上一篇文章中我们介绍了使用scrapy shell交互式地获取Web页面的标题信息，这篇文章继续以这个简单的示例来介绍在Scrapy框架下爬虫应用程序的使用方法。

爬虫示例代码

liumiaocn:scrapy liumiao$ ls
myspider.py
liumiaocn:scrapy liumiao$ cat myspider.py 
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://scrapy.org/']

    def parse(self, response):
        for title in response.css('title'):
            yield {'title': title.get()}
liumiaocn:scrapy liumiao$

代码非常简单，就是获取https://scrapy.org/的标题信息，yield是python的用法，css提取是HTML的基础，需要注意的只有两点