基于机器学习的天气数据分析与预测系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。

一项目简介

   本项目利用网络爬虫技术从某天气预报网站抓取某一城市的历史天气数据,构建天气数据分析与预测系统,实现对天气状况、最高气温、最低气温、风力和风向等维度的可视化分析和横向纵向比较, 并构建机器学习聚类算法实现对天气数据的预测分析。

二、数据读取

  功能主要包括:

在这里插入图片描述

三、基于机器学习的天气数据分析与预测系统

3.1 系统注册登录

系统的其他页面的访问需要注册登录,否则访问受限,其首页注册登录页面如下:

在这里插入图片描述

3.2 热门城市历史天气查询

系统提供热门城市(北京、上海、天津、重庆、贵阳、海口等30余个)按照年份和月份查询当月的天气数据:

在这里插入图片描述

3.3 热门城市天气状况统计分析

在这里插入图片描述

3.4 热门城市气温变化情况

     通过对热门城市近几年的气温变化分析,包括最低气温和最高气温,可发现气温基本呈现升高的态势,也反应出全球气候变暖问题的严重性!
def analysis_weather_year1_year2(city, start_year, end_year):
    """开始结束年间的天气变化分析"""
    start_year, end_year = int(start_year), int(end_year)
    df = weather_df[(weather_df['城市'] == city) & (weather_df['年'] >= start_year) & (weather_df['年'] <= end_year)]
    df = df.sort_values(by='日期', ascending=True)
    times = df['日期'].values.tolist()
    high_temp = df['最高气温'].values.tolist()
    low_temp = df['最低气温'].values.tolist()
 
    # 天气状况
    tianqi_counts = df['天气状况'].value_counts().reset_index()
    # 风力与风向
    feng_counts = df['最大风力风向'].value_counts().reset_index()
    return jsonify({'日期': times, '最高气温': high_temp, '最低气温': low_temp,
                    '天气状况': tianqi_counts['index'].values.tolist(),
                    '天气状况_个数': tianqi_counts['天气状况'].values.tolist(),
                    '风力风向': feng_counts['index'].values.tolist()[::-1],
                    '风力风向_个数': feng_counts['最大风力风向'].values.tolist()[::-1]})

在这里插入图片描述

3.5 聚类算法天气预测

    基于聚类算法实现天气状况、风力风向、AQI指数的预测,并基于AQI指数,进行出行建议。空气质量共分为6级:

空气质量级别为一级,空气质量状况属于优。此时,空气质量令人满意,基本无空气污染,各类人群可正常活动;
空气质量级别为二级,空气质量状况属于良。此时空气质量可接受,但某些污染物可能对极少数异常敏感人群健康有较弱影响,建议极少数异常敏感人群应减少户外活动;
空气质量级别为三级,空气质量状况属于轻度污染。此时,易感人群症状有轻度加剧,健康人群出现刺激症状。建议儿童、老年人及心脏病、呼吸系统疾病患者应减少长时间、高强度的户外锻炼;
空气质量级别为四级,空气质量状况属于中度污染。此时,进一步加剧易感人群症状,可能对健康人群心脏、呼吸系统有影响,建议疾病患者避免长时间、高强度的户外锻练,一般人群适量减少户外运动;
空气质量级别为五级,空气质量状况属于重度污染。此时,心脏病和肺病患者症状显著加剧,运动耐受力降低,健康人群普遍出现症状,建议儿童、老年人和心脏病、肺病患者应停留在室内,停止户外运动,一般人群减少户外运动;
空气质量级别为六级,空气质量状况属于严重污染。此时,健康人群运动耐受力降低,有明显强烈症状,提前出现某些疾病,建议儿童、老年人和病人应当留在室内,避免体力消耗,一般人群应避免户外活动。
————————————————
在这里插入图片描述

四. 热门城市天气数据获取

天气数据主要包括:天气状况、气温、风力风向、AQI指数等,本项目利用 python 编写网络爬虫从某天气预报网站抓取热门城市的天气数据:

  years = [2016, 2017, 2018, 2019, 2020, 2021]
months = list(range(1, 13))
 
all_city = []
all_date = []
all_tianqi = []
all_qiwen = []
all_feng = []
 
year_months = []
for year in years:
    for month in months:
        year_months.append('{}{}'.format(year, month if month > 9 else '0{}'.format(month)))
 
for city in city_map:
    for year_month in year_months:
        print('爬取{} {} 的气温数据'.format(city, year_month))
        url = 'http://www.xxxxxx.com/lishi/{}/month/{}.html'.format(city_map[city], year_month)
        response = requests.get(url)
        response = response.text
 
        soup = BeautifulSoup(response, 'lxml')
        items = soup.table.find_all('tr')
 
        for i, item in enumerate(items):
            if i == 0:
                continue
 
            data = item.find_all('td')
 
            all_city.append(city)
            date = remove_space(data[0].text)
            tianqi = remove_space(data[1].text)
            qiwen = remove_space(data[2].text)
            feng = remove_space(data[3].text)
 
            all_date.append(date)
            all_tianqi.append(tianqi)
            all_qiwen.append(qiwen)
            all_feng.append(feng)
 
weather_df = pd.DataFrame({'城市': all_city, '日期': all_date, '天气状况': all_tianqi, '气温': all_qiwen, '风力风向': all_feng})
weather_df.to_csv('weather_data.csv', encoding='utf8', index=False)

五. 总结

   本项目利用网络爬虫技术从某天气预报网站抓取某一城市的历史天气数据,构建天气数据分析与预测系统,实现对天气状况、最高气温、最低气温、风力和风向等维度的可视化分析和横向纵向比较, 并构建机器学习聚类算法实现对天气数据的预测分析。

# 一、项目介绍 **项目名称:天气预测天气可视化** 天气预测天气可视化是一个基于python机器学习(ml)的长春地区的天气预报项目,它实现了天气数据的爬取,预测和可视化。 项目结构如下: ![img](image/wps26.jpg) * 天气数据的来源 GetData文件使用python爬虫技术,爬取长春和全国的天气信息数据 爬取网站:http://tianqi.2345.com/wea_history/54161.htm ProcessDate文件对爬取的天气数据进行了预处理 几个CSV文件保存的是爬取后并经过处理的数据 * 天气数据的预测 GetModel文件通过训练预测模型来预测长春近一周的天气,该文件利用Joblib将模型保存到本地 Main文件是项目主文件,通过运行该文件即可运行整个项目,该文件前部分获取保存到本地的预测模型来进行预测,并将预测结果打印到控制台 * 天气数据的可视化 Main文件后部分实现了天气数据的可视化 # 二、详细介绍 本项目分为三个部分,即爬取和处理数据,数据预测(包含评价方法)和数据可视化 ## 1. 爬取和处理数据 数据爬取代码: ````py resq = requests.get(url, headers=headers, params=params) data = resq.json()["data"] # data frame df = pd.read_html(data)[0] ```` 即使用python爬取网站的json数据 ### **数据预处理:** 获取到的天气信息包括最高温,最低温都不是int格式的数字,通过对数据截取,将部分指标的数据变换为int类型 并对缺失值进行了处理 ````py my_imputer = SimpleImputer() imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train)) imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid)) ```` 通过SimpleImputer ,可以将现实数据中缺失的值通过同一列的均值、中值、或者众数补充起来,本项目使用了SimpleImputer的fit_transform对缺失值进行填充 ## 2. 数据预测和模型评价方法 预测数据采用了机器学习算法——线性回归 模型使用过程: ### A. 提取数据 ````py 获取测试集、训练集、验证集 [X_train, X_valid, y_train, y_valid, X_test] = ProcessData.ProcessData() ```` 其中ProcessData()函数里使用了如下语句: ````py X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0) ```` train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和验证集的函数;使用train_test_split函数将完整的数据集和验证集以同等的比例分成2组不同的数据集和验证集 ### B. 训练模型 选择了随机树森林模型(randomforest),然后用fit来训练模型 ````py # 随机树森林模型 model = RandomForestRegressor(random_state=0, n_estimators=1001) # 训练模型 model.fit(X_train, y_train) ```` ### C. 根据数据预测 ````py # 最终预测结果 preds = model.predict(r[1]) -------- 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值