(六)Python爬虫------使用Scrapy库简单爬取天气网城市天气预报信息,并使用MySQL数据库保存数据

本文介绍了如何使用Python的Scrapy库创建一个爬虫项目,爬取天气网的城市天气预报信息。首先,通过`scrapy startproject`和`scrapy genspider`命令创建项目和爬虫文件。接着,详细讲解了各个关键文件如`items.py`、`pipelines.py`、`settings.py`的作用。在`Weathers.py`中实现了爬取逻辑,包括解析页面获取城市链接并递归爬取各个城市天气信息。最后,数据通过`pipelines.py`保存到MySQL数据库中。
摘要由CSDN通过智能技术生成

 

 

 

一、使用Scrapy库做爬虫项目,前提是已经安装好了Scrapy库,没有没有安装,请查看我前几天的Scrapy库pip离线安装方法。

1.在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目:

 scrapy   startproject     PythonScrapyWeather    (PythonScrapyWeather为项目名称)

2.再通过命令创建一个Weathers.py的文件,如下命令即可创建Weathers.py的文件:
# 进入当前目录
cd   PythonScrapyWeather
# 创建爬虫文件
scrapy   genspider   Weathers   
tianqi.com            (Weather会自动创建为Weathers.py文件,)

 

二、项目中各个文件介绍:

(1)__init__.py
此文件为项目的初始化文件,主要写的是一些项目的初始化信息。  spider目录为一个python模块

(2)items.py
爬虫项目的数据容器文件,主要用来定义我们要获取的数据   定义需要的item类

(3)piplines.py
爬虫项目的管道文件,主要用来对items里面定义的数据进行进一步的加工与处理,传入item.py中的item类,清理数据,保存或入库

(4)settings.py
爬虫项目的设置文件,主要为爬虫项目的一些设置信息,例如设置用户代理、cookie  初始下载延迟

(5)spiders文件夹
此文件夹下放置的事爬虫项目中的爬虫部分相关

爬虫文件Weathers.py

name指定名称,文件唯一标识

allowed_domains以及start_urls标识开始的网址

parse执行的具体操作

三、爬虫代码编写

(1)Weathers.py文件:主要是网络请求和一些逻辑的实现

import s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值