Python爬取中国天气网天气数据

最新推荐文章于 2024-07-09 14:43:42 发布

双木已成林

最新推荐文章于 2024-07-09 14:43:42 发布

阅读量3w

点赞数 14

文章标签： python 爬虫

本文链接：https://blog.csdn.net/Seanlinsea/article/details/78391614

版权

由于一些需要，想要获取今天的天气数据，于是又捡起了Python写了个爬虫用来获取中国天气网上的气象数据。由于我需要的数据比较简单，因为我只需要北京地区当天的温度（最低温度和最高温度）和天气，因此代码部分比较简单，下面就来讲讲这个爬取的过程。

第一步网页分析

要进行爬虫设计，首先得分析网页的请求过程。首先，打开中国天气网首页，在搜索框中搜索北京，查看北京地区的天气，如下图所示：

这里写图片描述

发现在今天的数据栏中并没有我要的最低温度和最高温度，于是又选择了“7天”链接，截图如下：

这里写图片描述

这时候我想要的数据（最低温度、最高温度）就有了，接下来就该分析网页的请求过程了。通过对比分析“今天”页面和“7天”页面发现，该网站的请求都是简单的GET的请求。
以请求“7天”页面为例，请求的URL如下：

URL=“ http://www.weather.com.cn/weather/101010100.shtml”

其中，“weather”代表请求的是“7天”，如果是请求“今天”则是“weather1d“；后面的“101010100”则代表了北京地区的编号。

既然URL已经搞清楚了，那么就下来就要分析网页源码，找到数据在源码中呈现位置，经过一番寻找，已经定位数据在源码中的位置，其中天气数据和温度数据在两个p标签中，而最高温度数据在span标签中，最低温度在i标签中。

这里写图片描述

但是这边需要注意的一个问题是，到了晚上时间，这里会有一个变化，那就是没有了最高温度，在网页界面呈现的结果为：

这里写图片描述

在代码中的呈现结果即为少了一个span标签，只剩下包含最低温度数据的i标签。由于我在数据的应用场景中必须有最高温度，故为了避免读取不到最高温度，我采取的方法是直接利用第二天的最高温度来代替（虽然比较粗暴）。

这里写图片描述

到此，网页的分析工作就结束了，那么接下来的工作就是获取数据。

第二步数据获取

鉴于Python语言的优雅，本次简易爬虫故选用Python+Beautiful Soup 4进行页面解析。Beauti Soup是一个可以从HTML或XML文件中提取数据的Python库，其强大的解析功能，能够方便快捷的解决很多问题。关于BeautiSoup的相关介绍，大家可以参考官方文档或是其他文件，这里就直接贴出我的代码.

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

resp=urlopen('http://www.weather.com.cn/weather/101010100.shtml')
soup=BeautifulSoup(resp,'html.parser')
tagToday=soup.find('p',class_="tem")  #第一个包含class="tem"的p标签即为存放今天天气数据的标签
try:
    temperatureHigh=tagToday.span.string  #有时候这个最高温度是不显示的，此时利用第二天的最高温度代替。
except AttributeError as e:
    temperatureHigh=tagToday.find_next('p',class_="tem").span.string  #获取第二天的最高温度代替

temperatureLow=tagToday.i.string  #获取最低温度
weather=soup.find('p',class_="wea").string #获取天气

print('最低温度:' + temperatureLow)
print('最高温度:' + temperatureHigh)
print('天气:' + weather)