Datawhale task1打卡——二手车价格预测

最新推荐文章于 2024-07-22 09:59:37 发布

weixin_42143139

最新推荐文章于 2024-07-22 09:59:37 发布

阅读量100

点赞数

分类专栏：打卡文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42143139/article/details/115683214

版权

打卡专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Datawhale task1打卡——二手车价格预测

task1 目录

Datawhale task1打卡——二手车价格预测

1.1 赛题概况

根据二手车若干特征预测价格，比赛详情及数据来源

1.2 数据概况

1.2.1 数据维度

训练集：250000个样本，每个样本具有40个特征，其中特征‘price’为预测的目标特征
测试集：50000个样本, 每个样本39个已知特征，目标特征‘price’缺失

1.2.2 特征说明

在这里插入图片描述

1.2.3 数据缺失度

39个已知特征中，有4个特征存在缺失值：
bodyType：
fuelType：
gearbox：
notRepairedDamage：

1.3 预测指标

特征price

1.4 分析赛题

本题目重点需要研究：

哪些特征与目标相关，哪些是冗余特征，无需考虑
该数据是否与时间相关？若是，可从时序模型入手探索；若不是，可从回归模型入手探索。

1.5 代码示例

查看数据部分参考kaggle房价预测大佬代码
引用库 ↓

import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report
%matplotlib inline

查看数据 ↓

df_train = pd.read_csv('./car_train_0110.csv',sep=' ')
df_test = pd.read_csv('./car_testA_0110.csv',sep=' ')
df_train.shape,df_test.shape

在这里插入图片描述
预测特征

数据类型查看 ↓

df_train.info()

在这里插入图片描述

数据缺失情况查看 ↓

df_train.describe()

在这里插入图片描述

统计缺失特征 ↓

# find na
tmp = df_train.isnull().any()
tmp[tmp.values==True]

在这里插入图片描述

可视化缺失情况 ↓

# Top 4 features with missing data

sns.set_style("whitegrid")
plt.style.use('fivethirtyeight')
plt.figure(figsize=(15,4))
df=pd.Series(1 - df_train.count() / len(df_train)).sort_values(ascending=False).head(4)
sns.barplot(x=df.index, y=df,palette="Blues_d")
plt.xticks(rotation=90)

在这里插入图片描述

weixin_42143139

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale task1打卡——二手车价格预测

Datawhale task1打卡——二手车价格预测task1 目录Datawhale task1打卡——二手车价格预测1.1 赛题概况1.2 数据概况1.2.1 数据维度1.2.2 特征说明1.2.3 数据缺失度1.3 预测指标1.4 分析赛题1.5 代码示例1.1 赛题概况回归问题，根据二手车若干特征预测价格，比赛详情及数据来源1.2 数据概况1.2.1 数据维度训练集：250000个样本，每个样本具有40个特征，其中特征‘price’为预测的目标特征测试集：50000个样本, 每个样本3
复制链接

扫一扫