引言
提出一种新的长期交通流量预测模型DWT-CXNet,用以改善天津市长期交通流量的预测精度。该模型结合了CatBoost和XgBoost两种强大的梯度提升框架,并通过深度集成技术和贝叶斯优化方法来优化模型参数,以适应复杂多变的交通数据特性。
研究将使用天津市2023年1月1日至2024年1月1日的交通流量数据,这些数据涵盖了七种主要的交通方式,并辅以详尽的天气信息。在特征工程方面,本研究将采用特征移动、滚动窗口统计以及时间特征构造等技术,以增强模型对数据的理解和捕捉能力。此外,本章还将应用离散小波变换(DWT)技术,以提取交通流量数据中的关键时频特征,进一步提升预测的准确度。
特征工程
本研究使用的长期交通流量数据集取自天津市,覆盖了2022年12月1日至2023年6月1日的时间段。数据集包含了7种不同的交通方式的日客流量数据,这些数据为了进一步的分析和模型训练提供了丰富的信息源。为了增强数据集的信息丰度和预测模型的准确性,本研究还特别采用了Scrapy异步爬虫技术,从网络上爬取了相同时间段内的天津市天气状况数据,爬取的天气数据包括雨量、湿度以及温度,整合后的数据集特征字段如表4.1所示
为增强机器学习模型的性能和预测能力,需对天津市交通流量数据进行特征工程,本文采用的特征工程方法为特征移动(Feature Shifting)、滑动窗口统计(Rolling Window Statistics)、时间特征构造。
(1) Feature Shifting
(2) Rolling Window Statistics
对于滚