一、使用Scrapy库做爬虫项目,前提是已经安装好了Scrapy库,没有没有安装,请查看我前几天的Scrapy库pip离线安装方法。 1.在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目: scrapy startproject PythonScrapyWeather (PythonScrapyWeather为项目名称) 2.再通过命令创建一个Weathers.py的文件,如下命令即可创建Weathers.py的文件: # 进入当前目录 cd PythonScrapyWeather # 创建爬虫文件 scrapy genspider Weathers tianqi.com (Weather会自动创建为Weathers.py文件,) 二、项目中各个文件介绍: (1)__init__.py 此文件为项目的初始化文件,主要写的是一些项目的初始化信息。 spider目录为一个python模块 (2)items.py 爬虫项目的数据容器文件,主要用来定义我们要获取的数据 定义需要的item类 (3)piplines.py 爬虫项目的管道文件,主要用来对items里面定义的数据进行进一步的加工与处理,传入item.py中的item类,清理数据,保存或入库 (4)settings.py 爬虫项目的设置文件,主要为爬虫项目的一些设置信息,例如设置用户代理、cookie 初始下载延迟 (5)spiders文件夹 此文件夹下放置的事爬虫项目中的爬虫部分相关 爬虫文件Weathers.py name指定名称,文件唯一标识 allowed_domains以及start_urls标识开始的网址 parse执行的具体操作 三、爬虫代码编写 (1)Weathers.py文件:主要是网络请求和一些逻辑的实现 import s