python数据清洗基础一——初步探索数据

今天整理了数据清洗的基本操作用一个数据样例实操,相当于小实战,熟悉巩固知识。

初步探索数据

这一步是已经完成了导包、导数据的操作

  • 查看数据的形状
    我们得先初步了解一下我们拿到的数据表有多少数量,心中有个数。
# 1、导入相关包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#2、导入数据集
df=pd.read_csv('qunar_freetrip.csv',index_col=0)

#3、初步探索数据
#查看数据形状
df.shape

这里需要进行小知识点补充:
**index_col:**一般我们导入数据集都写这句,为啥?一定得写?
当然得看情况,我放完图你就知道什么时候该写了!

  • 默认时(不写它)
df=pd.read_csv('qunar_freetrip.csv')
df.head(2)

在这里插入图片描述默认时——重新设置一列作为index

  • 写它!index_col=0
df=pd.read_csv('qunar_freetrip.csv',index_col=0)
df.head(2

在这里插入图片描述
数据的第一列作为index
懂了嘛?反正我懂了,哈哈哈!好,继续回归正轨~

-查看数据的结构

#快速了解数据的结构
df.info()

在这里插入图片描述我们查看这个有什么用?
我们可以通过此数据的结构初步判断那些行是否有异常值,缺失值等等,做到心中有数~
**比如:**我们有5100行数据,可是出发地、目的地还有价格节省等不足,说明可能存在数据的缺失;再来,我们又从这个表中看到只有价格和节省是数值型,那么我们肯定得对其进行操作,所以,引出下一点describe()

  • 查看数据的描述性统计信息,只显示数值型数据的描述统计
#快速查看数据的描述性统计信息
df.describe() #显示数值型数据的描述统计

在这里插入图片描述

这个函数主要是判断异常值的!
我们看最小值的价格和节省差不多,差值不大,再看中位数的价格才1632,可是到了最大值相差太大了,节省和价格也相差挺大的,所以我们初步判断,它可能是个异常值,我们得注意!

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值