2024年数维杯国际赛D题论文全网首发+代码保姆级讲解

本文链接：https://blog.csdn.net/qq_33690821/article/details/143810964

无附录 58页 2万字 11页纯图无文字

城市韧性与可持续发展能力评估

摘要

中国人口老龄化趋势加剧，2022年首次出现了人口负增长，这表明未来中国将长期面临人口减少的趋势。这一趋势必然会对许多城市，特别是二线和三线城市的高质量与可持续发展产生深远影响。同时，全球极端气候事件的频繁发生和当前经济下行压力将对城市发展的韧性提出前所未有的挑战。

针对问题1，首先最重要的是对数据进行正确的缺失值处理，并采用四种模型（线性回归、决策树、随机森林和梯度提升）进行模型预测，然后训练模型并选取效果最好的模型作为最终模型进行区域房价预测，最后可视化并计算住房总量的估算。

针对问题2，我们需要对城市1（长春）和城市2（呼和浩特）的十五个不同部门的服务水平进行定量分析，提取两城市的共性和独特性，并分析它们各自的优缺点。可以看出这是一个统计分析的问题，采用数量统计分析与图像可视化来进行比较。

针对问题3，，目标是评估两座城市在极端天气和突发事件方面的韧性，以及其可持续发展的能力。根据提供的十五个文件（服务指标），我们可以初步

一、符号说明

为了方便我们模型的建立与求解过程，我们这里对使用到的关键符号进行以下说明

一、问题求解与分析

4.1 问题1求解与分析

4.1.1 问题1分析

4.1.2 问题1建模与求解

问题1的目标是对城市1和城市2的未来房价进行具体预测，并对现有住房总量进行具体估计。为了实现这一目标，我们采用了多种机器学习回归模型来进行房价预测。具体的步骤包括数据预处理、特征选择、模型构建与训练、模型预测、结果评价和分析。

1、数据预处理

（1）缺失值处理

从Appendix 1与Appendix 2给出的某日城市1和城市2在58同城上出售房产的基本信息可以看到有很多N/A值，缺失值可视化的特征变量情况如图1和图2所示。其中，图1的柱形图是城市1变量缺失情况统计，图2的饼图是城市2变量缺失情况统计。假如将城市1的Appendix 1里面的空值全部进行删除的操作，那么原有的4600多条数据就会缩减成900多条，这种缺失值的处理方式是不太合理的。因此本文采用缺失值替换与填补的操作进行处理。

对于数值型变量，采用随机森林来进行预测填补，对于数值型变量，使用众数列进行填补。

Community Number	0
Price (USD)	0
Total number of households	0
Greening rate	0
Floor area ratio	0
Building type	0
parking space	0
Property management fee (/m²/month USD)	0
above-ground parking fee (/month USD)	0
underground parking fee (/month USD)	0
property type	0
citycode	0
adcode	0
lon	0
lat	0
X	0
Y	0

可以看到，缺失值已被全部处理。

（2）数据编码与标准化

Label Encoding：对于类别型变量（例如Building type），使用LabelEncoder将其转换为数值。

Min-Max标准化：对特征和目标变量进行标准化，将所有数值缩放到 [0, 1] 的区间。这样可以使得模型在训练时更加稳定，避免特征取值差异过大对结果的影响。

1、模型结果

（1）城市1

各模型预测的房价数值：

表3 模型Linear Regression结果

	Citycode	Adcode	Predicted Average Price (USD)
0	431	220104	6764.782218
1	431	220173	7825.148383
2	431	220103	7395.310954
3	431	220106	6301.285135
4	431	220183	5778.481958
5	431	220105	7177.316057
6	431	220171	7700.144560
7	431	220172	9983.853414
8	431	220113	6273.302201
9	431	220174	6645.492549
10	431	220102	7949.806720
11	431	220122	6249.736509
12	431	220112	6984.504301
13	431	220182	5993.360766

表4 模型Decision Tree结果

	Citycode	Adcode	Predicted Average Price (USD)
14	431	220104	8980.339255
15	431	220173	8566.413527
16	431	220103	6248.714788
17	431	220106	6948.823878
18	431	220183	3696.665550
19	431	220105	7226.104817

问题2求解与分析

4.2.1 问题2分析

根据问题2的描述，我们需要对城市1（长春）和城市2（呼和浩特）的十五个不同部门的服务水平进行定量分析，提取两城市的共性和独特性，并分析它们各自的优缺点。可以看出这是一个统计分析的问题，采用数量统计分析与图像可视化来进行比较。

4.2.2 问题2分析与求解

1、数据预处理与整合

（1）加载数据：读取所有十五个服务数据表，包括住宿服务、商业住宅、医疗与健康、公共设施等。

（2）清洗数据：检查并处理缺失值、重复值等异常数据，统一数据格式和单位。

15个服务水平表11所示。

表11 服务水平

Accommodation service data	住宿服务数据
Business-residential data	商住数据
Car data	汽车数据
Finance and insurance data	金融保险数据
Food and beverage service data	餐饮服务数据
Geographical name and address information data	地理名称及地址信息数据
Government and social organizations data	政府及社会组织数据
Interior amenities data	室内设施数据
Lifestyle service data	生活服务数据
Medical and health data	医疗健康数据
Motorbike data	摩托车数据
Public facilities data	公共设施数据
Retail service data	零售服务数据
Science, education, and culture data	科教文化数据
Transportation facilities data	交通设施数据