Scrapy 新建爬虫项目-启动爬虫项目-本地调试页面-学习

本文介绍如何使用Scrapy创建新的爬虫项目,并详细解释了启动与调试爬虫的具体步骤,包括解决Windows环境下常见的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy 新建爬虫工程

切换到web项目目录,使用如下命令,新建名称为ArticleSpider的爬虫工程
scrapy startproject ArticleSpider

返回以下内容,说明爬虫工程创建成功

You can start your first spider with:
    cd ArticleSpider
    scrapy genspider spiderName example.com

Scrapy 启动爬虫

  1. 切换目录爬虫项目目录(ArticleSpider)

    cd ArticleSpider

  2. 通过下面的命令,对指定的域名生成一个spider
    scrapy genspider spiderName example.com
  3. 命令行下,启动一个spider方法

    scrapy crawl spider_name
    (article_spider) F:\PyWeb\ArticleSpider>scrapy crawl spiderName

    • windows 下出现以下错误 (linux系统下不会出现这个错误)
      需要安装pypiwin32

    (article_spider) F:\PyWeb\ArticleSpider>pip install -i https://pypi.douban.com/simple pypiwin32

避免每次调试都进行,远程获取数据,导致被ip被反爬虫机制干掉,使用Scrapy本地调试

Scrapy 本地调试 目标网页

scrapy shell Url
返回结果后
通过变量获取内容
title= response.xpath('xpath语句')
打印title
>>> title
[<Selector xpath='//div[@class="entry-header"]/h1/text()' data='软件开发面试题(部分)'>]
通过extract()获取,得到的数据
>>> title.extract()  

['2016 腾讯软件开发面试题(部分)']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值