二手车价格预测

ads..ad

已于 2024-06-18 16:35:37 修改

阅读量2.4k

点赞数 29

文章标签： python

于 2024-05-11 16:54:24 首次发布

本文链接：https://blog.csdn.net/Luyuxi_/article/details/138721214

版权

1、二手车预测价格赛题是一个典型的回归问题，要求参赛者根据给定的数据集预测二手车的零售交易价格。

2、数据集通常包括车辆的基本信息、交易时间信息和价格信息等变量，其中可能包含匿名特征。

3、在比赛中，参赛者需要选择合适的机器学习算法或模型，并进行训练和调优，以提高模型的预测准确性。

4、常用的回归算法包括线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、弹性网络回归等。

5、此外，参赛者还需要进行数据预处理，包括数据清洗、特征工程、缺失值处理等，以确保数据的质量和可用性。

6、同时，对数据进行探索性分析，如可视化、特征相关性分析等，有助于更好地理解数据和选择合适的模型。

7、最终，模型的预测结果将根据平均绝对误差（MAE）等指标进行评估，MAE 值越小，拟合得越好。

前言

赛题属于回归类型，相比于前两次的保险反欺诈及贷款违约预测，本次比赛学到了很多特征工程、模型调参及模型融合的处理，收货颇丰

数据预处理：对数据进行清洗、预处理和特征工程，以确保数据的质量和可用性。这可能包括删除无关列、处理异常值、填充缺失值、进行特征转换等操作。

模型选择与训练：选择适合的机器学习模型，并使用训练集对其进行训练。常见的模型包括决策树、随机森林、神经网络等。

模型评估与调优：使用测试集对训练好的模型进行评估，并根据评估结果对模型进行调优。这可能涉及调整模型的参数、选择合适的特征、进行特征工程等。

预测与提交：使用训练好的模型对测试集进行预测，并将预测结果提交给比赛平台。

在天池比赛中，参赛者可以使用各种机器学习算法和技术，如决策树、随机森林、神经网络等，来构建预测模型。同时，参赛者还需要注意数据的合法性、合理性和异常值处理，以提高模型的准确性和可靠性

题目：

预测二手车的交易价格为任务，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

一、数据探索（EDA）

1.读取数据、缺失值可视化

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
df = pd.read_csv('/train.csv', sep=' ')
# 缺失值可视化
missing = df.isnull().sum()/len(df)
missing = missing[missing > 0]
missing.sort_values(inplace=True) #排个序
missing.plot.bar()

df.describe().T

目标变量price， 75%以下的数据与最大值相差较大，数据呈现一个偏态分布（也可以可视化，会更加直观），这也是后续要进行对数转换的原因。

# 分离数值变量与分类变量
Nu_feature = list(df.select_dtypes(exclude=['object']).columns)  # 数值变量
Ca_feature = list(df.select_dtypes(include=['object']).columns)
plt.figure(figsize=(30,25))
i=1
for col in Nu_feature:
    ax=plt.subplot(6,5,i)
    ax=sns.kdeplot(df[col],color='red')
    ax=sns.kdeplot(test[col],color='cyan')
    ax.set_xlabel(col)
    ax.set_ylabel('Frequency')
    ax=ax.legend(['train','test'])
    i+=1
plt.show()

与目标变量相关性比较高的特征有regDate、kilometer、v_0、v_3、v_8、v_12，这个不难理解，注册日期越早，行驶公里数越多，车价相对会越低。品牌和车型与目标变量的相关性较低这点比较意外。

二、数据清洗

# 众数填充缺失值
df['notRepairedDamage']=df['notRepairedDamage'].replace('-',0.0)
df['fuelType'] = df['fuelType'].fillna(0)
df['gearbox'] = df['gearbox'].fillna(0)
df['bodyType'] = df['bodyType'].fillna(0)
df['model'] = df['model'].fillna(0)
# 截断异常值
df['power'][df['power']>600] = 600
df['power'][df['power']<1] = 1
df['v_13'][df['v_13']>6] = 6
df['v_14'][df['v_14']>4] = 4
# 目标变量进行对数变换服从正态分布
df['price'] = np.log1p(df['price'])

大部分模型是以数据正态分布为前提，目标变量如果偏态严重，会影响模型预测效果，所以才会进行对数正态化

三、特征工程

特征工程我参考了很多大神的方法，自己也尝试了很多组合在模型上运行，最终确定了这些特征，

毕竟模型都差不多，特征能够对提分有比较显著的效果，更多特征的构建可以参考：

零基础入门数据挖掘系列之「特征工程」-天池技术圈-天池技术讨论区