(六）Python爬虫------使用Scrapy库简单爬取天气网城市天气预报信息，并使用MySQL数据库保存数据

最新推荐文章于 2024-08-14 17:39:55 发布

Xiaoyeforever

最新推荐文章于 2024-08-14 17:39:55 发布

阅读量2.6k

点赞数

分类专栏：爬虫 python Xpath 文章标签： scrapy python mysql 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiaoyeforever/article/details/103951971

版权

本文介绍了如何使用Python的Scrapy库创建一个爬虫项目，爬取天气网的城市天气预报信息。首先，通过`scrapy startproject`和`scrapy genspider`命令创建项目和爬虫文件。接着，详细讲解了各个关键文件如`items.py`、`pipelines.py`、`settings.py`的作用。在`Weathers.py`中实现了爬取逻辑，包括解析页面获取城市链接并递归爬取各个城市天气信息。最后，数据通过`pipelines.py`保存到MySQL数据库中。

摘要由CSDN通过智能技术生成

一、使用Scrapy库做爬虫项目，前提是已经安装好了Scrapy库，没有没有安装，请查看我前几天的Scrapy库pip离线安装方法。

1.在使用Scrapy开发爬虫时，通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目：

scrapy startproject PythonScrapyWeather （PythonScrapyWeather为项目名称）

2.再通过命令创建一个Weathers.py的文件，如下命令即可创建Weathers.py的文件：
# 进入当前目录
cd PythonScrapyWeather
# 创建爬虫文件
scrapy genspider Weathers tianqi.com （Weather会自动创建为Weathers.py文件，）

二、项目中各个文件介绍:

（1）init.py
此文件为项目的初始化文件，主要写的是一些项目的初始化信息。 spider目录为一个python模块

（2）items.py
爬虫项目的数据容器文件，主要用来定义我们要获取的数据定义需要的item类

（3）piplines.py
爬虫项目的管道文件，主要用来对items里面定义的数据进行进一步的加工与处理，传入item.py中的item类，清理数据，保存或入库

（4）settings.py
爬虫项目的设置文件，主要为爬虫项目的一些设置信息，例如设置用户代理、cookie 初始下载延迟

（5）spiders文件夹
此文件夹下放置的事爬虫项目中的爬虫部分相关

爬虫文件Weathers.py

name指定名称，文件唯一标识

allowed_domains以及start_urls标识开始的网址

parse执行的具体操作

三、爬虫代码编写

（1）Weathers.py文件：主要是网络请求和一些逻辑的实现

import s

最低0.47元/天解锁文章

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。