Python爬虫框架Scrapy学习笔记

最新推荐文章于 2025-04-04 04:18:51 发布

火鱼

最新推荐文章于 2025-04-04 04:18:51 发布

阅读量442

点赞数

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/luck28/article/details/109628061

本文介绍了Python Scrapy爬虫框架的安装与运行流程，包括创建项目、编写Spider、配置settings.py以及理解下载器中间件和Item Pipeline的工作原理。通过详细步骤展示了如何在PyCharm中设置环境，并提供了多个学习资源链接，帮助读者掌握Scrapy的基本用法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、首先安装python3.7+

2、安装scrapy，，，，可使用命令面板进行pip安装,方法自行百度

我使用的是Mac 下的 PyCharm开发，

配置环境：在Python Interpreter上切换python3.7的环境，并安装Scrapy。

Scrapy运行流程（了解）

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取

过程：

1、cd 进入（工程）文件夹下面创建工程

scrapy startproject xxxxxxDemo

2、创建sprider 以 movie.douban为例子

cd xxxxxxDemo

scrapy genspider douban_movie movie.douban.com

3、使用pycherm打开 DoubookDemo 项目，编写代码

下面（三、代码编写）细说

4、打开命令面板Terminal cd在spiders文件路径下执行命令

scrapy crawl douban_spider

或者新建立一个如：main.py文件，直接Run执行

其他spider名字替换成你的spider名字

from  scrapy import cmdline
# 输出未过滤的页面信息
cmdline.execute('scrapy crawl spider名字'.split())

三、代码编写

1、在Spider中，书写主要的东西：

 name = 'hupu_bbs'
    allowed_domains = ['bbs.hupu.com']
    start_urls = ['http://bbs.hupu.com/bxj/']

    # def start_requests(self):
    #     for i in  range(1,10):
    #         yield scrapy.Request('http://bbs.hupu.com/bxj-' + str(i))

    def parse(self, response):

        movie_list = response.xpath("//div[@class='show-list']//ul[@class='for-list']/li")
        modelList = []
        for item in movie_list:
            itemModel = HupudemoItem()
            # douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            # douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            # douban_item['describle'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            itemModel['title'] = item.xpath(".//div[@class='titlelink box']/a/text()").extract_first()
            itemModel['name'] = item.xpath(".//

最低0.47元/天解锁文章