项目背景
在我们的课程学习中,老师留给我们的作业就是阿里云天池的一个长期赛,用来给新手练手的,来练习基本的机器学习的框架建设和代码实现,下面我会从我的思路来展示我的解题过程。
二手车市场是一个充满机会和挑战的领域,预测二手车的交易价格不仅可以帮助买家和卖家做出更明智的决策,还能提升交易平台的竞争力。此次项目的目标是利用机器学习模型预测二手车的交易价格。我们将使用来自某交易平台的二手车交易记录数据,进行数据预处理、特征工程、模型训练和评估,最终生成一个预测结果提交文件。
数据集介绍
数据集包含超过40万条二手车交易记录,31个特征变量,包括15个匿名特征。为保证比赛的公平性,数据集被分为训练集、测试集A和测试集B。为了保护隐私,部分特征(如name、model、brand和regionCode)已被脱敏。
以下是数据集中的一些重要特征:
- SaleID: 交易ID,唯一编码
- regDate: 汽车注册日期
- model: 车型编码
- brand: 汽车品牌
- bodyType: 车身类型
- fuelType: 燃油类型
- gearbox: 变速箱类型
- power: 发动机功率
- kilometer: 已行驶公里数
- notRepairedDamage: 尚未修复的损坏
- regionCode: 地区编码
- seller: 销售方
- offerType: 报价类型
- creatDate: 汽车上线时间
-
price: 二手车交易价格(预测目标)
数据预处理
import pandas as pd
impo