使用Python机器学习预测汽车价格!

462f6102331e18b49979b20ed961db74.gif

大家好,我是小F~

前不久湖北推出大幅购车优惠政策,开启了“史上最强”的汽车补贴。

一辆21万的B级燃油车最高降价9万,只需要12万多点就能拿下来了。

也是带动了其他汽车厂商的降价,超30个汽车品牌加入降价大军。

对于汽车价格,Python也是可以应用上的,比如基于Python机器学习的汽车价格预测

当然上面这种大降价的情况应该是不考虑在内的~

汽车价格取决于很多因素,比如汽车品牌的知名度、汽车的功能(有无辅助驾驶或泊车等功能)、发动机功率和行驶里程等等。

本期小F就通过Python机器学习,来训练一个简单的汽车价格预测模型

汽车价格预测是机器学习的主要研究领域之一,主要基于金融和市场营销领域。

对汽车价格有较大影响的一些因素包含:

1. 品牌

2. 车型外观

3. 发动机及功率

4. 里程

5. 安全性能

6. GPS等

如果忽略汽车的品牌,汽车制造商主要是根据汽车可以给客户提供的功能来定价的。

之后,品牌可能会根据其品牌价值进行溢价。

但最重要的因素则是一辆车能给你的生活增添什么价值

下面小F就带大家完成这个使用Python编程语言通过机器学习训练汽车价格预测模型的任务。

用来训练汽车价格预测模型的数据集是从Kaggle下载的。

9ee74b11d3af9a81f9cccb39f9f590e9.png

它包含了影响汽车价格所有主要特征的数据。

先导入相关的Python库,通过Pandas读取数据集。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

data = pd.read_csv("CarPrice.csv")
print(data.head())

显示打印前五行的数据。

a565057af52383f57ac36e54720df04f.png

这个数据集有26列,在下一步操作之前,检查数据集是否包含空值。

# 检查空值
print(data.isnull().sum())

发现并没有空值存在。

905b44b6a02f879b127c0b56777d3eb2.png

包含车名、燃料类型、车长、车宽、车高、发动机功率、转速等信息。

下面继续来探索这个数据集,以了解我们正在处理的数据情况。

# 数据信息
print(data.info())

有205行数据,每一列的数据格式,空值情况。

34537c9e8fbf892b1875cf1f7568644f.png

一共有三种数据类型,float、int、object。

# 数据描述
print(data.describe())

获取到每一列的计数、平均值等情况。

c12a9be5c7dacad523f995705928c028.png

对汽车名称进行去重操作,看看一共有多少种车型。

# 去重
print(data.CarName.unique())

发现了不少熟悉的品牌,比如奥迪、宝马、马自达、丰田、本田、沃尔沃等。

36e80f14aedbe14debbd3ab8f63f6ac2.png

这个数据集中的price列是我们需要预测其值的列,来看一下价格这一列数据的分布情况。

# 设置样式
sns.set_style("whitegrid")
plt.figure(figsize=(10, 5))
sns.distplot(data.price)
# 显示
plt.show()

可以看出汽车价格主要分布在10000美元左右。

4b08d2ee9d27c3565c41fa9d4b917cee.png

现在让我们分析这个数据集所有特征之间的相关性

# 相关性
print(data.corr())

打印结果。

1e4103e13ca2ec54f8cd41d1d338a557.png

制作图表进行显示查看。

plt.figure(figsize=(10, 5))
correlations = data.corr()
# 设置样式
sns.heatmap(correlations, cmap="coolwarm", annot=True)
# 显示
plt.show()

观察价格这一特征,发现汽车价格受发动机影响最大

33061d0828e04b706fd4fad030423d1e.png

最后,使用决策树回归算法来训练一个汽车价格预测模型。

决策树呈树形结构,是一种基本的回归和分类方法。

将数据分成训练集和测试集,并使用决策树回归算法来训练模型。

# 预测项
predict = "price"
# 原始数据
data = data[["symboling", "wheelbase", "carlength",
             "carwidth", "carheight", "curbweight",
             "enginesize", "boreratio", "stroke",
             "compressionratio", "horsepower", "peakrpm",
             "citympg", "highwaympg", "price"]]

# 变量
x = np.array(data.drop([predict], 1))
# 结果
y = np.array(data[predict])

# 分配数据集
xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.2)
# 决策树回归算法
model = DecisionTreeRegressor()
# 训练模型
model.fit(xtrain, ytrain)

# 模型预测
predictions = model.predict(xtest)
# 准确性指标
print(model.score(xtest, predictions))

获取到的准确性指标为1.0。

表示该模型在测试集上给出了100%的准确性,有点高...

感兴趣的小伙伴可以输入不同的数据,来进行测试看看。

相关文件及代码都已上传,公众号回复【汽车价格预测】即可获取。

万水千山总是情,点个 👍 行不行

推荐阅读

5c13e28f6507351a12d43d766b132c28.jpeg

bd29aa0e37aab6b54d197197add331fa.jpeg

3860abe0249bf344bfdb78d7e0d3da4f.jpeg

···  END  ···

96b98f40f7259bbfdaeb6697244c2b6f.jpeg

  • 3
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Python Kaggle汽车价格数据分类预测使用Python编程语言来分析和预测Kaggle汽车价格数据集中的汽车价格分类。Kaggle是一个数据科学和机器学习竞赛网站,提供了各种数据集供研究者和机器学习爱好者使用。 通过使用Python编程语言,可以使用各种数据处理和机器学习库来进行数据的清洗、特征工程和建模。首先,我们可以使用Pandas库来加载和处理数据集。可以对数据进行预处理,如处理缺失值、处理异常值、转换数据类型等。 接下来,可以使用Matplotlib或Seaborn库来进行数据的可视化分析,以了解数据集的特征和分布情况。例如,可以绘制汽车价格与其它特征之间的关系图,如汽车品牌、车型、年份、里程等。 然后,可以使用Scikit-learn库来进行机器学习模型的建模和预测。可以使用各种分类算法,如决策树、随机森林、支持向量机等。可以将数据集分为训练集和测试集,训练模型并进行交叉验证,选择最佳的模型并进行参数调优。 最后,可以使用训练好的模型对新的汽车数据进行分类预测。可以使用测试集来评估模型的性能,如准确率、召回率、F1值等。也可以使用一些评估指标来评估模型的预测能力,如混淆矩阵、ROC曲线、AUC值等。 通过使用Python Kaggle汽车价格数据分类预测,可以有效地分析和预测汽车价格分类,为汽车行业的定价和销售决策提供有力的支持。同时,也可以提高我们对数据分析和机器学习的理解和实践能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值