scrapy的安装
打开cmd选择自己要安装的路径pip install scrapy
scrapy框架的创建以及运行步骤
- 创建Scrapy项目:在命令行终端中输入以下命令,创建一个名为myproject的Scrapy项目
scrapy startproject myproject
- 进入项目目录:
复制代码
cd myproject
-
创建爬虫:在命令行终端中输入以下命令,创建一个名为myspider的爬虫:
scrapy genspider myspider example.com
- 编辑爬虫文件:打开myspider.py文件,编辑爬虫代码。例如:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' allowed_domains = ['example.com'] start_urls = ['http://www.example.com/'] def parse(self, response): # 提取数据并保存到文件中 pass
- 运行爬虫:在命令行终端中输入以下命令,运行爬虫
scrapy crawl myspider
-
scrapy运行纯在的错误解决办法
(1) 对spdier项目的配置文件进行修改,打开文件settings.py
BOT_NAME:项目名
USER_AGENT:索要爬取网站的USER_AGENT
ROBOTSTXT_OBEY:是否遵循机器人协议,默认是true,需要改为false,否则很多东西爬不了(2)
Twisted 软件包的新版本(版本 23.8.0),该软件包似乎与 scrapy 存在一些兼容性问题。
可能还会出现如下报错:
attributeError: ‘SelectReactor’ object has no attribute ‘_handleSignals’解决方案:删除已经安好的Twisted 软件包
pip uninstall Twisted
下载22.10版
pip install Twisted==22.10.0