使用爬虫（lxml）+requests收集厦门2016-2020每一天的历史天气信息

最新推荐文章于 2023-06-23 22:57:23 发布

skywuuuu

最新推荐文章于 2023-06-23 22:57:23 发布

阅读量154

点赞数

分类专栏：《利用Python进行数据分析》笔记+整理+案例实习生涯爬虫文章标签： python xpath 数据分析 html

本文链接：https://blog.csdn.net/skywuuu/article/details/111695335

版权

实习生涯同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

《利用Python进行数据分析》笔记+整理+案例

14 篇文章 4 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

使用爬虫（lxml）+requests收集厦门2016-2020每一天的历史天气信息

get_month_data

函数作用：得到每个月的数据集合，并返回一个pd.DataFrame。

其中使用了xpath的方式提取数据

etree_html = etree.HTML(html.text)
content = etree_html.xpath(Xpath) # content是一个list

使用numpy对数据reshape
将数据转换到DataFrame中

get_month_html

函数作用：得到每个月的链接集合。
通过几次尝试，发现该网站的命名规律是https://lishi.tianqi.com/城市拼音/年份月份.html（例如：https://lishi.tianqi.com/xiamen/201606.html）
简单的一个for循环搞定

完整代码

import requests
import numpy as np
import pandas as pd
from lxml import etree

def get_month_data(html, xpath, xpath_num): # 得到每个月的数据集合
    df = pd.DataFrame([])
    etree_html = etree.HTML(html.text)
    for i, Xpath in enumerate(xpath):
        content = etree_html.xpath(Xpath)
        content = np.array(content) # 将得到的content数据转成numpy
        content = content.reshape((len(content)//xpath_num[i],xpath_num[i])) # 根据得到的序列数量reshape
        # print(content)
        df[content[0]] = content[1:] # 放进DataFrame中，content[0]是columns的名字，content[1:]是内容
    print(df)
    return df

def get_month_html(link_base, start_year, end_year): # 网站的天气数据有规律
    link_collection=[]
    for year in range(start_year, end_year+1):
        for month in range(1,13):
            if month < 10: #把1,2,3月份等补充为01,02,03月份，10,11等月份就不需要补0
                link = link_base+str(year)+'0'+str(month)
            else:
                link = link_base+str(year)+str(month)
            link+='.html'
            link_collection.append(link)
    # print(link_collection)
    return link_collection

if __name__ == '__main__':
    start_year = 2016 # 数据的起始年份
    end_year = 2020 # 数据的终止年份
    link_base = 'https://lishi.tianqi.com/xiamen/' # 基准链接
    xpath = ["//div[@class='th200']/text()","//div[@class='th140']/text()"] # 通过xpath的方式手工得到，第一条是日期，第二条是天气数据（最高温，最低温，天气情况，风力）
    xpath_num = [1,4] # 对应xpath的标签，第一条只有日期（1条信息），第二条link（4条信息，见上一行）
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} # 伪装成用户
    link_collection = get_month_html(link_base,start_year,end_year) # 得到链接集合
    weather_collection = pd.DataFrame([])
    for link in link_collection:
        html = requests.get(url=link, headers=headers)
        df = get_month_data(html, xpath,xpath_num)
        weather_collection = weather_collection.append(df,ignore_index=True) # 将得到的从start_year到end_year的每日信息拼接到一个大的DataFrame中

    weather_collection.to_csv('./2016-2020天气汇总.csv', encoding='gbk', index=False) # 保存到csv

skywuuuu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用爬虫（lxml）+requests收集厦门2016-2020每一天的历史天气信息

使用爬虫（lxml）+requests收集厦门2016-2020每一天的历史天气信息get_month_data函数作用：得到每个月的数据集合，并返回一个pd.DataFrame。其中使用了xpath的方式提取数据etree_html = etree.HTML(html.text)content = etree_html.xpath(Xpath) # content是一个list使用numpy对数据reshape将数据转换到DataFrame中get_month_html函数作用：
复制链接

扫一扫