Datawhale二手车预测Task

最新推荐文章于 2022-08-28 11:24:49 发布

swupup

最新推荐文章于 2022-08-28 11:24:49 发布

阅读量265

点赞数

文章标签：数据分析机器学习

本文链接：https://blog.csdn.net/qq_41725735/article/details/105079520

版权

本文详细探讨了二手车价格预测任务的理解和数据解析。通过对数据的载入、基本信息分析、缺失值和异常值处理，以及预测值分布的探讨，揭示了数据的偏度和峰度对模型的影响，并提出通过log变换改善数据分布。此外，还涉及特征的分类与分析，包括相关性、偏度、峰度和分布可视化，以及使用pandas_profiling生成数据报告，为后续建模提供基础。

摘要由CSDN通过智能技术生成

Task2

一、赛题的理解

确定问题的分类。是分类，回归，还是topk等问题
背景分析（赛题背景可能包含一些重要的隐藏信息，对数据的清洗有很大的帮助）
- 对模型的性能要求
- 判断某些值是否合理，异常值，
- 是否遗漏了某些属性

二、数据的解析

1.载入数据

import pandas as pd
import numpy as numpy
import os

path='C:\\Users\\Aishuilife\\Desktop\\二手车\\data'

train_path=os.path.join(path,"used_car_train_20200313.csv")
test_path=os.path.join(path,"used_car_testA_20200313.csv")

Train_data=pd.read_csv(train_path,sep=" ")
Test_data=pd.read_csv(test_path,sep=" ")

print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)

2.数据总体分析

通过info()函数查看数据类型
通过describe函数查看数据的相关统计量，对于数据分布进行初步了解

3.判断数据缺失和异常

#%%判断缺失值和异常值
Train_data.isnull().sum()
#%%
Test_data.isnull().sum()

#%%nan可视化
missing=Train_data.isnull().sum();
missing=missing[missing>0]
missing.sort_values(inplace=True)
missing.plot.bar()
plt.show()

训练集缺失值

#采样查看属性的缺省值
msno.matrix(Train_data.sample(250))

缺失值的可视化

通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印，主要的目的在于 nan存在的个数是
否真的很大，如果很小一般选择填充，如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的
过多、可以考虑删掉

2.异常值

通过info()函数可以查看属性得数值类型，可以发现notRepairedDamage 为object类型
可以使用 value_counts() 函数查看某一属性具体值得分布

Train_data['notRepairedDamage'].value_counts()

‘ - ’也为空缺值，因为很多模型对nan有直接的处理，这里我们先不做处理，先替换成nan

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)

最低0.47元/天解锁文章

swupup

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫