数维杯更新时间轴
5.10 13:00 完整论文讲解
5.10 20:00 降重说明
5.10 22:00 无代码实现方式实操+数据结果
5.11 18:00 漏洞说明视频+无水印可视化结果
气象与花卉开花数据的结合
摘要
随着旅游业的快速发展,清明节赏花成为了一个重要的文化和经济活动。本文通过对清明假期期间大气温度、气压、相对湿度、风速、能见度及降雨状态等气象数据的收集与处理,提出了一个综合优化的模型,用于预测天气状况并优化旅游路线选择。
我们基于题目给出网站进行数据收集工作,利用给出网站我们获取西安、吐鲁番、婺源、杭州、毕节、武汉、洛阳七个城市近20年清明假期期间大气温度、大气压、相对湿度、平均风速、水平能见度、降雨状态等指标。并收集杏花、油菜花、杜鹃花、樱花、牡丹五种花在在华东地区、华中地区、西南地区、西北地区、华北地区五个地区的始期以及花期25种情况。基于收集的数据集,进行数据清洗工作。首先针对缺失值,分别使用线性、样条、PCHIP、最近邻插值进行插值补充数据。针对各指标数据,引入异常值判定,并针对结果进行人为判定,最终完成数据清洗工作。
针对问题一,对七个城市清明假期下雨状况的预测。根据一组气象数据(包括大气温度T、气压P0、相对湿度U、风速FF等)建立一个分类模型,用于判定清明节当天是否下雨。该分类模型的输出是一个二元变量(WW列),1表示有雨,0表示无雨。具体而言,我们建立随机森林、梯度提升树、支持向量机(SVM)、决策树模型进行判定,并根据模型选择最适合该城市的预测模型。
针对问题二,花卉开放时间、花期等预报模型。我们基于杏花、油菜花、杜鹃花、樱花、牡丹五种花在在华东地区、华中地区、西南地区、西北地区、华北地区五个地区的始期以及花期25种情况,分别针对始期以及花期建立预测模型。
针对问题三,根据2026 年清明假期天气预报和花期预测拟一份清明踏青赏花自由行攻略。目标是通过构建一个优化模型来选择最合适的清明踏青赏花自由行路径。这个路径选择是基于预测的2026年清明假期的天气情况以及花卉的开花时间(始期和花期)。我们通过引入,交通方式约束、假期时间约束、景点游玩时间约束,建立以赏花最多,花费最少的多目标优化模型,引入智能算法进行求解。
针对问题四,基于上述内容,通过改变问题三的约束实现对不同方案的调控,最终给地方政府提供一些具体措施,延长“ 赏花经济” 产业链, 使“ 赏花经济” 拥有“ 超长花期”。
关键词:清明假期,天气预测,花卉开花预测,旅游路线优化,多目标优化模型
一、模型假设
为了方便模型的建立与模型的可行性,我们这里首先对模型提出一些假设,使得模型更加完备,预测的结果更加合理。
1、假设花卉观光收入完全由游客的观光时间和花卉的开放时间决定,不考虑其他潜在的收入来源(如交通、住宿等费用)。此外,相关产业收入的计算基于一定比例的花卉观光收入。
2、假设不同城市之间的旅行时间是固定的,并且不受天气、交通等因素的影响。旅行时间计算仅考虑高铁的行驶速度、上下车时间及车站到景点的时间。
3、了简化计算,假设所有收入都按小时计算,花卉观光收入和相关产业收入是按一定比例产生的。此外,花卉的花期与游客的参观时长是线性关系。
4、假设下雨状态只影响游客的参观意愿,导致游客流量在雨天减少,而其他经济活动不受影响。降雨影响通过乘以一个系数来调整花卉观光收入。
5、假设除了花卉观光和相关产业收入外,其他经济因素(如地方政府的财政支持、其他旅游活动等)不直接影响分析中的经济效益。此外,假设地方政府能够有效地推动延长花期的政策,并且该政策实施后能够有效吸引游客。
二、模型的建立与求解
5.1 数据预处理
5.1.1 数据收集
对于问题一数据集,数据主要来源为题目给出第二个网站
天气网提供从1981 年起世界 241 个国家的历史天气信息和最新天气预报。站点数据库的数据每三小时记录一次,每天八次。网址为: https://rp5.ru/。网站使用说明见文末
在网站首页查找本题所需要研究的城市即可。对于问题一要求的西安、吐鲁番、婺源、杭州、毕节、武汉、洛阳。由于气象网站问题,七个城市中婺源、毕节、洛阳均无法直接搜索。这里我们可选择接邻的城市进行平替,网站中对于洛阳的历史天气会直接输出郑州历史天气。我们也可以使用网站中存在的景德镇数据替代婺源,贵阳数据替代毕节。
基于题目研究的清明节天气,并让我们适当简化模型。这里我们初步构想为使用过去十年的清明节当天的天气预测2026年的天气。因此需要进行数据筛选。对于清明节的定义为
清明节,又叫扫墓节、踏青节、三月节等,时间在农历春分后第15日,公历4月5日前后,是“二十四节气”之一,也是传统祭祖节日。并非指定的4.4.下表为近十年的清明节具体时间
年份 | 具体时间 | 年份 | 具体时间 |
2000年 | 4月4日 | 2014年 | 4月5日 |
2001年 | 4月5日 | 2015年 | 4月5日 |
2002年 | 4月5日 | 2016年 | 4月4日 |
2003年 | 4月5日 | 2017年 | 4月4日 |
2004年 | 4月4日 | 2018年 | 4月5日 |
2005年 | 4月5日 | 2019年 | 4月5日 |
2006年 | 4月5日 | 2020年 | 4月4日 |
2007年 | 4月5日 | 2021年 | 4月4日 |
2008年 | 4月4日 | 2022年 | 4月5日 |
2009年 | 4月4日 | 2023年 | 4月5日 |
2010年 | 4月5日 | 2024年 | 4月4日 |
2011年 | 4月5日 | 2025年 | 4月4日 |
2012年 | 4月4日 | 2026年 | 4月5日 |
5.1.2 数据清洗
下面进行必要的数据清洗工作。
我们以毕节为例,
当毕节时间 | T | P0 | U | Ff | WW | VV |
05.04.2023 19:00 | 13.0 | 655.9 | 77 | 6 | 0 | 10 |
05.04.2023 20:00 | 12.0 | 655.6 | 82 | 5 | 0 | 10 |
05.04.2023 21:00 | 11.0 | 656.5 | 82 | 5 | 0 | 10 |
05.04.2023 22:00 | 10.0 | 656.8 | 94 | 5 | 1 | 8 |
05.04.2023 23:00 | 0 | |||||
04.04.2024 00:00 | 17.0 | 657.8 | 77 | 4 | 0 | 10 |
04.04.2024 01:00 | 17.0 | 657.2 | 77 | 3 | 0 | 10 |
04.04.2024 02:00 | 15.0 | 656.6 | 88 | 4 | 0 | 10 |
04.04.2024 03:00 | 15.0 | 656.6 | 82 | 4 | 0 | 10 |
04.04.2024 04:00 | 14.0 | 656.2 | 94 | 4 | 1 | 10 |
04.04.2024 05:00 | 14.0 | 656.2 | 94 | 4 | 1 | 10 |
我们分别使用线性、样条、PCHIP、最近邻插值进行插值补充数据,并根据插值结果选择插值效果最好的模型进行补充数据。
5.1.3 描述性分析
基于收集的数据,我们进行必要分分析。
为了更加直观的展示各城市地理位置,我们绘制了可视化结果如下所示
5.2.2 基础模型构建
首先,通过读取清明节的历史气象数据并将时间列转换为datetime对象,然后提取出年份、月份、日期和小时信息,准备数据进行分析。数据预处理阶段检查是否存在缺失值,如果发现缺失值,便使用线性插值进行填充,以确保数据完整性。
在特征工程阶段,选择了温度、湿度和风速作为特征,目标变量为是否发生降雨。模型训练使用2018年至2025年的数据,通过对每年清明节当天的数据进行筛选,获得各特征在该日期的历史记录。这些特征与目标变量一起构成训练集,用于训练逻辑回归模型。
为了预测2026年清明节当天的气象特征,使用了ARIMA模型进行时间序列预测。对于每个特征,使用过去几年的数据(2018至2025年)来预测2026年4月5日清明节当天每小时的气温、湿度和风速等。ARIMA模型的核心思想是基于自回归(AR)、差分(I)和移动平均(MA)模型的组合来对时间序列进行建模。
ARIMA模型的标准形式如下:
这张图展示了2026年清明节降雨预测结果的三个子图。上面的子图显示了预测的降雨概率,但数据几乎全都集中在0的范围内,表明降雨的可能性非常低,且没有出现显著波动。中间的子图显示了逐小时的降雨预测值,预测值大部分时间都接近0,但在某些小时段出现了明显的波动,可能表明某些特定时间段的降雨概率较高。底部的子图是降雨概率的详细展示,其中某些小时的概率值接近1,显示出这些小时降雨的可能性较大。整体来看,图表表明虽然总体降雨概率较低,但仍然存在个别小时可能出现降雨的情况。