python爬虫项目爬取天气信息

最新推荐文章于 2024-08-08 14:28:23 发布

_fox

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量1.0k

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_19599237/article/details/133843101

版权

需要用到两个三方库

import requests
import pandas as pd

找到我们要爬取的网页，并发现，任意月份或者年份的网址都相同，是动态网页。

找到每点开一次月份或者年份，向网站服务器请求的信息，并进行分析。

设置要爬取的页面，以及反爬headers

url = 'https://tianqi.2345.com/Pc/GetHistory'
headers = {
            'user-agent': 'Mozilla/5.0'
}

定义爬取一页数据的函数：

def craw_table(year, month):
    params = {
                'areaInfo[areaId]': 56778,
                'areaInfo[areaType]': 2,
                'date[year]': year,
                'date[month]': month,
    }

    r = requests.get(url, headers=headers, params=params)
    data = r.json()['data']
    df = pd.read_html(data)[0]
    return df

循环爬取5年的数据，并将数据保存。

craw_list = []

for year in range(2015, 2020):
    for month in range(2, 10):
        df = craw_table(year, month)
        craw_list.append(df)

print(craw_list)
pd.concat(craw_list).to_excel("昆明5年天气.xlsx", index=False)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

_fox

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫项目爬取天气信息

找到我们要爬取的网页，并发现，任意月份或者年份的网址都相同，是动态网页。找到每点开一次月份或者年份，向网站服务器请求的信息，并进行分析。设置要爬取的页面，以及反爬headers。循环爬取5年的数据，并将数据保存。
复制链接

扫一扫