一、研究背景
随着全球化进程和城市化的发展,交通工具需求不断增长,导致全球能源消耗和温室气体排放显著增加。汽车,尤其是传统的内燃机驱动的汽车,作为主要的交通工具,其燃油消耗量和排放物对环境产生了不可忽视的影响。交通领域排放的二氧化碳占全球排放总量的近四分之一,这种状况促使各国政府和环保组织呼吁采取措施减少汽车的碳足迹。各大汽车制造商响应此呼声,不断推动低排放、高效率的新能源车如电动汽车和混合动力汽车的发展,寻求在满足交通需求的同时降低环境影响。尽管如此,汽车燃油效率和环境影响仍然存在显著差异,如何进一步提升传统车辆的燃油效率并推动新能源汽车普及,成为了汽车产业转型的核心问题。
基于此,本研究聚焦于燃油效率及其影响因素的实证分析。通过一个包含550款车型的数据集,从中提取城市、高速公路及综合燃油效率等关键指标,深入分析不同汽车特性(如发动机排量、气缸数、驱动类型和燃料类型)对燃油效率的影响。借助数据分析和机器学习方法,本研究旨在揭示当前市场中哪些汽车配置和设计更具环保优势,从而为制定汽车产业的绿色技术发展路线提供数据支撑。
二、研究意义
本研究具有以下几点重要意义:
-
环境保护方面:通过分析不同类型汽车的燃油效率,揭示节能技术在交通工具中的应用效果。高效燃油技术和新能源汽车的普及有望显著减少碳排放和空气污染,为改善环境质量和应对气候变化做出贡献。这不仅能帮助消费者了解环保汽车的优势,还为各国政府提供数据支持,制定更有效的环保政策。
-
汽车产业创新:本研究为汽车制造商提供了关于车辆燃油效率的深入见解,帮助他们理解市场上高效节能车型的配置特征,以此优化其产品设计。通过研究燃料类型、发动机配置和驱动方式对燃油效率的影响,汽车制造商可以针对性地提升燃油效率、减轻车辆重量、优化驱动和传动系统等,从而提高竞争力。
-
新能源车推广与普及:电动汽车和混合动力汽车因其高燃油效率和低排放被视为未来出行的主流。研究表明,新能源汽车在燃油效率和环保性方面相较传统汽车具有显著优势。通过量化不同车辆的燃油效率差异和分析影响因素,消费者将能更好地理解并接受新能源车的价值,从而推动其普及率进一步提高。
-
政策制定的参考依据:对于政策制定者而言,深入了解汽车燃油效率及其影响因素有助于制定激励措施以促进高效环保车辆的生产和消费。例如,针对高油耗车型制定税收政策,或对电动车和混合动力车进行补贴等措施。基于本研究的发现,政策制定者可以更有针对性地制定政策,提高环保车的市场占比,从而推动低碳经济的转型。
综上所述,本研究不仅有助于进一步揭示汽车性能与环保的关系,还为汽车产业的绿色转型、消费者环保意识的提升以及政策制定提供了科学依据,为建设可持续的低碳社会做出贡献。
三、实证分析
此数据集包含有关 550 个汽车模型的详细信息,侧重于基本性能指标和规格。它对于分析不同制造商和年份的燃油效率、发动机配置和车辆分类特别有用。它具有广泛的功能,是机器学习、数据探索和汽车研究的宝贵资源。
主要特点:
city_mpg:城市驾驶的燃油效率(以英里/加仑 (mpg) 为单位),对于城市驾驶分析至关重要。
highway_mpg:高速公路驾驶的燃油效率(以 mpg 为单位),非常适合比较长途性能。
combination_mpg:城市和高速公路驾驶的综合燃油效率,这是衡量车辆整体性能的关键指标。
气缸和排量:有助于理解汽车功率和燃料消耗的发动机规格。
drive:传动系统的类型(例如 FWD、AWD),是确定汽车操控性和地形适宜性的关键。
fuel_type:燃料类型(例如汽油、电动),对环境影响研究很重要。
制造商和型号:汽车制造商和型号,使品牌特定的分析和比较成为可能。
year:车辆的生产年份,可用于跟踪一段时间内的趋势和技术改进。
导入数据分析包
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
import datetime
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi'] #中文
plt.rcParams['axes.unicode_minus'] = False #负号
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
读取数据集
df = pd.read_csv('car_data.csv')
查看数据类型
df.dtypes
查看缺失值情况
missing_values = df.isnull().sum()
print(missing_values)
df[df.isnull().any(axis=1)]
三菱 i-MiEV 是一款电动汽车,这意味着它没有传统的内燃机,因此不像汽油或柴油发动机那样有气缸或排量。电动汽车使用电动机,因此它们没有像气缸这样属于内燃机的部件。
df['cylinders'] = df['cylinders'].fillna(0)
df['displacement'] = df['displacement'].fillna(0)
查看数据集描述性统计分析
df.describe()
探索性数据分析
low_threshold = df['combination_mpg'].quantile(0.05)
high_threshold = df['combination_mpg'].quantile(0.95)
plt.figure(figsize=(10, 6),dpi=200)
sns.histplot(df['combination_mpg'], stat='density')
sns.kdeplot(df['combination_mpg'], fill=True)
plt.axvline(low_threshold, color='red', linestyle='--', label='低效率阈值(第5百分位数)')
plt.axvline(high_threshold, color='green', linestyle='--', label='高效率阈值(第95百分位数)')
plt.title('突出显示异常值的燃油效率分布')
plt.xlabel('综合每加仑英里数')
plt.ylabel('数量')
plt.legend()
plt.show()
# 异常值检测
outliers = df[df['combination_mpg'] > 40]
outliers[['make', 'model', 'fuel_type', 'combination_mpg']].sort_values(by='combination_mpg', ascending=False)
这些车辆要么是全电动汽车,要么是混合动力汽车,这解释了与传统汽油动力汽车相比它们的燃油效率高的原因。
plt.figure(figsize=(20, 10), dpi=200)
# 绘制箱线图
sns.boxplot(x='combination_mpg', y='class', data=df)
# 设置标题,字体大小为20
plt.title('按汽车类别划分的燃油效率', fontsize=20)
# 设置x轴和y轴标签及字体大小
plt.xlabel('综合每加仑英里数', fontsize=16)
plt.ylabel('汽车类别', fontsize=16)
# 设置x轴和y轴刻度大小
plt.xticks(fontsize = 16)
plt.yticks(fontsize = 16)
# 显示图形
plt.show()
与标准皮卡车或小型货车等大型车辆相比,超小型汽车和小型运动型多功能车的燃油效率相对较高。每个类别中都有多个异常值,可能代表混合动力汽车或电动汽车(从异常值分析中可以看出)。
plt.figure(figsize=(8, 4), dpi=180)
sns.boxplot(x='fuel_type', y='combination_mpg', data=df)
plt.title('按燃料类型划分的燃油效率分布', fontsize=18)
plt.xlabel('燃料类型', fontsize=16)
plt.ylabel('综合每加仑英里数', fontsize=16)
plt.show()
汽油车: 大多数汽油车的燃油效率在 15-30 MPG 之间,少数异常值高达 40-50 MPG 左右。
柴油车:柴油车的续航里程往往略窄,燃油效率集中在 20-25 MPG 左右。
电动汽车:电动汽车在效率方面显然是异常值,超过 100 英里/加仑,远超汽油和柴油汽车的效率。
按燃料类型划分的燃油效率分布
汽油和柴油汽车:汽油动力汽车的分布峰值约为 20-25 英里/加仑,很少有汽车具有更高的燃油效率。
电动汽车:像三菱 i-MiEV 这样的电动汽车以更高的 MPG(约 100+ MPG)脱颖而出,展示了它们在燃油效率方面的优势。
column = 'cylinders'
if df[column].dtype in ['float64', 'int64']:
plt.figure(figsize=(10, 6), dpi=200)
sns.lmplot(data=df, x=column, y='combination_mpg', hue='fuel_type', aspect=1.5, ci=None,
scatter_kws={'s': 50}, line_kws={'linewidth': 1}, palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
else:
plt.figure(figsize=(10, 6), dpi=200)
sns.boxplot(data=df, x=column, y='combination_mpg', hue='fuel_type', palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
column = 'displacement'
if df[column].dtype in ['float64', 'int64']:
plt.figure(figsize=(10, 6), dpi=200)
sns.lmplot(data=df, x=column, y='combination_mpg', hue='fuel_type', aspect=1.5, ci=None,
scatter_kws={'s': 50}, line_kws={'linewidth': 1}, palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
else:
plt.figure(figsize=(10, 6), dpi=200)
sns.boxplot(data=df, x=column, y='combination_mpg', hue='fuel_type', palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
column = 'transmission'
if df[column].dtype in ['float64', 'int64']:
plt.figure(figsize=(10, 6), dpi=200)
sns.lmplot(data=df, x=column, y='combination_mpg', hue='fuel_type', aspect=1.5, ci=None,
scatter_kws={'s': 50}, line_kws={'linewidth': 1}, palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
else:
plt.figure(figsize=(10, 6), dpi=200)
sns.boxplot(data=df, x=column, y='combination_mpg', hue='fuel_type', palette='Set2')
plt.title(f'燃油效率与{column.capitalize()}按燃料类型分类')
plt.show()
燃油效率与气缸:正如预期的那样,具有更多气缸的汽车往往燃油效率较低。电动汽车(以蓝色突出显示)是明显的异常值,尽管没有气缸,但 MPG 要高得多。
燃油效率与排量:发动机排量较大的车辆通常表现出较低的燃油效率。同样,电动汽车以显着更高的燃油效率和 0 排量脱颖而出。
燃油效率与驱动类型:与全轮驱动 (AWD) 或后轮驱动 (RWD) 车辆相比,前轮驱动 (FWD) 车辆往往具有更好的燃油效率。这是有道理的,因为 AWD 和 RWD 系统通常会增加重量和机械复杂性,从而降低燃油效率。
燃油效率与变速器:配备手动变速器的车辆往往具有更高的燃油效率变化,而自动变速器则表现出更一致的性能。配备自动变速器的电动汽车在效率方面再次优于燃油效率与年份的对比:多年来的燃油效率略有提高,但保持相对稳定。电动汽车显然是异常值,燃油效率要高得多,而汽油和柴油汽车则集中在 40 MPG 以下。
特征重要性分析
X = df_processed.drop(columns=['combination_mpg'])
y = df_processed['combination_mpg']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
feature_importances = rf_model.feature_importances_
feature_names = X.columns
plt.figure(figsize=(10, 6),dpi=200)
sns.barplot(x='Importance', y='Feature', data=importance_df)
plt.title('预测燃油效率的特征重要性')
plt.show()
城市和高速公路 MPG:城市 MPG 和高速公路 MPG 是最重要的特征。这是有道理的,因为这两个变量与汽车在不同驾驶条件下使用燃料的效率直接相关,因此它们在燃油效率的预测中占据主导地位也就不足为奇了。
燃料类型:燃料类型(电力)是一个关键因素,因为与汽油或柴油汽车相比,电动汽车的燃油效率往往要高得多。燃料类型(燃气)也很重要,但与电力相比,其程度较小。
发动机相关功能:排量和气缸也起着一定的作用,因为更大的发动机(更大的排量和更多的气缸)通常会导致燃油效率降低。
驱动类型和车辆类别:驱动类型(FWD、AWD 等)和车辆类别(例如中型车、小型 SUV)等特征会产生一些影响,但与发动机相关特征和 MPG 值相比,它们不那么重要。
离群值分析
plt.figure(figsize=(10, 6),dpi=200)
sns.histplot(df['combination_mpg'], bins=30, kde=True, color='blue')
plt.axvline(low_threshold, color='red', linestyle='--', label='低效率阈值(第5百分位数)')
plt.axvline(high_threshold, color='green', linestyle='--', label='高效率阈值(第95百分位数)')
plt.title('突出显示异常值的燃油效率分布')
plt.legend()
plt.show()
基于类的异常值分析
plt.figure(figsize=(10, 5),dpi=200)
sns.barplot(data=high_outliers, x='class', y='combination_mpg', palette='Set2')
plt.title('按车辆类别划分的高燃油效率异常值数量')
plt.show()
超小型汽车构成了高燃油效率异常值的大部分。这是意料之中的,因为较小的汽车往往更省油。
其他具有高效率的车辆类别包括中型汽车、紧凑型汽车和小型运动型多功能车 (SUV),尽管与超小型汽车相比,它们的数量较少。
这表明超小型汽车最有可能实现高燃油效率,这可能是因为它们的尺寸更小、重量更轻,这通常会导致更好的行驶里程。
四、研究结论
1. 燃油效率分布:
数据集中大多数车辆的燃油效率 (combination_mpg) 在 20-30 MPG 之间,第 95 个百分位阈值为 32 MPG。高于此阈值的车辆(主要是电动汽车)表现出明显更高的燃油效率,有些达到 100+ MPG。该数据集显示了传统汽油动力汽车和更省油的汽车之间的明显区别。
2. 主要影响特征:
预测燃油效率的最重要特征是城市 MPG、高速公路 MPG 和燃料类型(尤其是电动汽车)。
发动机相关因素(如排量和气缸)也会显著影响燃油效率,较大的发动机通常效率较低。
驱动类型(例如 FWD、AWD)和变速箱类型(手动与自动)对燃油效率的影响较小但明显。
3. 异常值分析:
燃油效率高于 32 MPG 的车辆很少见,但确实存在的很可能是电动汽车,它们在效率方面明显优于传统的汽油动力汽车。低效率的异常值,通常是 SUV 和具有更大发动机的卡车,低于第 5 个百分位,约为 18 MPG。
对未来分析的建议
电动汽车代表着燃油效率的未来,其性能明显优于汽油和柴油汽车。提高传统汽车的燃油效率可能需要发动机设计、驱动系统和传动技术方面的技术进步。更深入的分析侧重于电动和混合动力汽车,以及它们对环境的影响和成本效益,将是有价值的一步。