Datawhale二手车预测Task

本文详细探讨了二手车价格预测任务的理解和数据解析。通过对数据的载入、基本信息分析、缺失值和异常值处理,以及预测值分布的探讨,揭示了数据的偏度和峰度对模型的影响,并提出通过log变换改善数据分布。此外,还涉及特征的分类与分析,包括相关性、偏度、峰度和分布可视化,以及使用pandas_profiling生成数据报告,为后续建模提供基础。
摘要由CSDN通过智能技术生成

Task2

一、赛题的理解

  • 确定问题的分类。是分类,回归,还是topk等问题
  • 背景分析(赛题背景可能包含一些重要的隐藏信息,对数据的清洗有很大的帮助)
    • 对模型的性能要求
    • 判断某些值是否合理,异常值,
    • 是否遗漏了某些属性

二、数据的解析

1.载入数据

import pandas as pd
import numpy as numpy
import os

path='C:\\Users\\Aishuilife\\Desktop\\二手车\\data'

train_path=os.path.join(path,"used_car_train_20200313.csv")
test_path=os.path.join(path,"used_car_testA_20200313.csv")

Train_data=pd.read_csv(train_path,sep=" ")
Test_data=pd.read_csv(test_path,sep=" ")

print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)

2.数据总体分析

  1. 通过info()函数查看数据类型
  2. 通过describe函数查看数据的相关统计量,对于数据分布进行初步了解

3.判断数据缺失和异常

  1. #%%判断缺失值和异常值
    Train_data.isnull().sum()
    #%%
    Test_data.isnull().sum()
    
    #%%nan可视化
    missing=Train_data.isnull().sum();
    missing=missing[missing>0]
    missing.sort_values(inplace=True)
    missing.plot.bar()
    plt.show()

    训练集缺失值

    #采样查看属性的缺省值
    msno.matrix(Train_data.sample(250))

    缺失值的可视化

通过以上两句可以很直观的了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于 nan存在的个数是
否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果nan存在的
过多、可以考虑删掉

2.异常值

  1. 通过info()函数可以查看属性得数值类型,可以发现notRepairedDamage 为object类型
  2. 可以使用 value_counts() 函数 查看某一属性具体值得分布
Train_data['notRepairedDamage'].value_counts()

 

‘ - ’也为空缺值,因为很多模型对nan有直接的处理,这里我们先不做处理,先替换成nan

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值