打卡-Task2:数据的探索性分析(EDA)

载入数据库

pandas和numpy作为数据科学库导入,matplotlib和seaborn作为可视化的库导入

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

载入数据

sep=’ ’以’ '为数据分隔符读取

path = 'C:/Users/61499/Desktop/二手车交易/'
Train_data_load = open(path+'used_car_train_20200313.csv')
Test_data_load = open(path+'used_car_testA_20200313.csv')
Train_data = pd.read_csv(Train_data_load,sep=' ')
Test_data = pd.read_csv(Test_data_load,sep=' ')

数据查看

Train_data.head().append(Train_data.tail())
Train_data.shape
Test_data.head().append(Train_data.tail())
Test_data.shape

常用的pandas数据查看函数:
train.head(5) #显示前5行数据
train.tail(5) #显示后5行
train.columns #查看列名
train.info() #查看各字段的信息
train.shape #查看数据集行列分布,几行几列

总览数据概况

使用describe总览数据概况

describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下。

Train_data.describe()
Test_data.describe()

使用info()查看数据类型和缺失值

info 通过info来了解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常

Train_data.info()
Test_data.info(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值