数据挖掘 Task2:数据的探索性分析(EDA)

本文详细介绍了数据挖掘任务中探索性数据分析(EDA)的过程,包括载入常用库,数据的基本特征观察,缺失值和异常值的判断,以及预测值的分布分析。使用missingno库展示数据缺失情况,通过核密度函数评估价格分布,结合偏度和峰度分析数据对称性和异常点。结果显示,价格分布接近johnsonsu分布,异常值主要集中在20000以上。
摘要由CSDN通过智能技术生成

数据挖掘 Task2:数据的探索性分析(EDA)

1、载入数据分析和可视化常用库

其他都是我平时常用的库,missingno第一次用,主要是用于直观显示数据集中缺失值的分布以及相关性的。

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import missingno as msno

2、载入数据和观察数据基本特征

读取训练集数据,初步观察数据集规模,数值特性,数据类型等

filepath=r'C:\Users\信息\Desktop\DataWhale 14 天训练营\used_car\used_car_train_20200313.csv'
#打开训练集,查看数据规模,观察特征
train=pd.read_csv(filepath,sep=' ')
print(train.head().append(train.tail()))
print(train.shape)
#总览数据概况
print(train.info())#数据类型
print(train.describe())#数据数值特性

3、判断数据缺失和异常

(1)数据缺失

统计数据有缺失的列,统计缺失个数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值