Scrapy 新建爬虫工程
切换到web项目目录,使用如下命令,新建名称为ArticleSpider的爬虫工程
scrapy startproject ArticleSpider
返回以下内容,说明爬虫工程创建成功
You can start your first spider with:
cd ArticleSpider
scrapy genspider spiderName example.com
Scrapy 启动爬虫
- 切换目录爬虫项目目录(ArticleSpider)
cd ArticleSpider
- 通过下面的命令,对指定的域名生成一个spider
scrapy genspider spiderName example.com 命令行下,启动一个spider方法
scrapy crawl spider_name
(article_spider) F:\PyWeb\ArticleSpider>scrapy crawl spiderName- windows 下出现以下错误 (linux系统下不会出现这个错误)
需要安装pypiwin32
(article_spider) F:\PyWeb\ArticleSpider>pip install -i https://pypi.douban.com/simple pypiwin32
- windows 下出现以下错误 (linux系统下不会出现这个错误)
避免每次调试都进行,远程获取数据,导致被ip被反爬虫机制干掉,使用Scrapy本地调试
Scrapy 本地调试 目标网页
scrapy shell Url
返回结果后
通过变量获取内容
title= response.xpath('xpath语句')
打印title
>>> title
[<Selector xpath='//div[@class="entry-header"]/h1/text()' data='软件开发面试题(部分)'>]
通过extract()获取,得到的数据
>>> title.extract()
['2016 腾讯软件开发面试题(部分)']

本文介绍如何使用Scrapy创建新的爬虫项目,并详细解释了启动与调试爬虫的具体步骤,包括解决Windows环境下常见的问题。

被折叠的 条评论
为什么被折叠?



