基于CART的共享单车租赁预测研究(数据可换)（Python代码实现）

ssswww56

已于 2024-09-19 14:55:32 修改

阅读量996

点赞数 29

文章标签： python

于 2024-09-19 14:55:06 首次发布

本文链接：https://blog.csdn.net/ssswww56/article/details/142360409

版权

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文目录如下：🎁🎁🎁

目录

⛳️赠与读者

💥1 概述

一、研究背景与意义

二、CART算法简介

三、模型构建与原理

1. 数据收集与预处理

2. 模型构建

3. 剪枝处理

四、实验结果与讨论

五、研究应用与展望

1. 应用场景

2. 研究展望

📚2 运行结果

🎉3 参考文献

🌈4 Python代码、数据

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时候，不要觉得这些问题搞笑。哲学是科学之母，哲学就是追究终极问题，寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能让人胸中升起一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它居然给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥1 概述

基于CART（分类与回归树，Classification And Regression Tree）的共享单车租赁预测研究是一种利用CART算法对共享单车租赁数量进行预测的方法。CART算法通过构建决策树来实现分类或回归任务，在共享单车租赁预测中，主要利用其分类能力来预测给定条件下的共享单车租赁数量。以下是对该研究的详细分析：

一、研究背景与意义

随着共享单车的快速发展，准确预测共享单车租赁数量对于共享单车企业优化车辆调度、提高运营效率具有重要意义。CART算法以其易于理解、实现简单且能够处理分类型与数值型属性的特点，在共享单车租赁预测中展现出良好的应用前景。

二、CART算法简介

CART算法是一种二分递归分割技术，它将当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此生成的决策树是结构简洁的二叉树。CART算法既可以用于分类也可以用于回归，在共享单车租赁预测中，我们主要关注其分类能力。

三、模型构建与原理

1. 数据收集与预处理

数据收集：收集共享单车租赁系统的历史数据，包括租赁数量、时间信息（如日期、小时）、天气状况（如温度、湿度、风速等）、地理位置等。
数据清洗：去除异常值、缺失值等，确保数据的完整性和准确性。对于缺失值的处理，可以采用填充法（如使用中位数、众数填充）或删除法（直接删除含有缺失值的记录）。
特征选择：根据业务需求和数据特点，选择对共享单车租赁数量有显著影响的特征作为模型的输入变量。

2. 模型构建

决策树生成：利用CART算法构建决策树。在构建过程中，算法会递归地选择最优特征和最优切分点来划分样本集，直到满足停止条件（如节点中的样本个数小于预定阈值、样本集的基尼系数小于预定阈值等）。
特征选择：CART算法使用基尼系数（Gini Index）作为特征选择的准则。基尼系数越小，表示样本集合的纯度越高，即样本属于同一类的可能性越大。算法会遍历所有特征和所有可能的切分点，选择基尼系数最小的特征和切分点作为最优特征和最优切分点。

3. 剪枝处理

剪枝目的：为了避免决策树过拟合，提高模型的泛化能力，需要对生成的决策树进行剪枝处理。
剪枝方法：剪枝分为预剪枝和后剪枝两种方法。预剪枝是在决策树生成过程中提前停止树的生长；后剪枝是在决策树生成后通过一定的标准对树进行修剪。CART算法通常采用后剪枝方法，通过验证集来评估剪枝的效果。

四、实验结果与讨论

基于CART的共享单车租赁预测模型通常能够在训练集和测试集上表现出良好的预测性能。该模型能够捕捉影响租赁数量的多种因素及其之间的复杂关系，提高预测的准确性和稳定性。然而，也需要注意到模型的局限性，如对于极端天气或特殊事件等不可预见因素的预测可能不够准确。

五、研究应用与展望

1. 应用场景

实时预测与调度：将预测模型与实时监控系统相结合，实现共享单车租赁数量的实时预测和动态调度。
运营决策支持：为共享单车企业的运营决策提供数据支持，如优化车辆投放策略、调整租金价格等。

2. 研究展望

多源数据融合：引入更多数据源（如交通流量、人口迁移等），提高预测的准确性和全面性。
模型优化：探索更高效的CART算法实现和参数优化方法，提高模型的学习速度和预测性能。
可解释性研究：加强对CART模型预测结果的可解释性研究，提高模型的透明度和可信度。

综上所述，基于CART的共享单车租赁预测研究为共享单车租赁数量的预测提供了一种有效的方法。未来随着技术的不断发展和数据的不断积累，该领域的研究将更加深入和广泛。

📚2 运行结果

部分代码：

def evaluate_forecasts(Ytest, predicted_data, n_out):
    # 定义一个函数来评估预测的性能。
    mse_dic = []
    rmse_dic = []
    mae_dic = []
    mape_dic = []
    r2_dic = []
    # 初始化存储各个评估指标的字典。
    table = PrettyTable(['测试集指标','MSE', 'RMSE', 'MAE', 'MAPE','R2'])
    for i in range(n_out):
        # 遍历每一个预测步长。每一列代表一步预测，现在是在求每步预测的指标
        actual = [float(row[i]) for row in Ytest]  #一列列提取
        # 从测试集中提取实际值。
        predicted = [float(row[i]) for row in predicted_data]
        # 从预测结果中提取预测值。
        mse = mean_squared_error(actual, predicted)
        # 计算均方误差（MSE）。
        mse_dic.append(mse)
        rmse = sqrt(mean_squared_error(actual, predicted))
        # 计算均方根误差（RMSE）。
        rmse_dic.append(rmse)
        mae = mean_absolute_error(actual, predicted)
        # 计算平均绝对误差（MAE）。
        mae_dic.append(mae)
        MApe = mape(actual, predicted)
        # 计算平均绝对百分比误差（MAPE）。
        mape_dic.append(MApe)
        r2 = r2_score(actual, predicted)
        # 计算R平方值（R2）。
        r2_dic.append(r2)
        if n_out == 1:
            strr = '预测结果指标：'
        else:
            strr = '第'+ str(i + 1)+'步预测结果指标：'
        table.add_row([strr, mse, rmse, mae, str(MApe)+'%', str(r2*100)+'%'])