今天整理了数据清洗的基本操作用一个数据样例实操,相当于小实战,熟悉巩固知识。
初步探索数据
这一步是已经完成了导包、导数据的操作
- 查看数据的形状
我们得先初步了解一下我们拿到的数据表有多少数量,心中有个数。
# 1、导入相关包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#2、导入数据集
df=pd.read_csv('qunar_freetrip.csv',index_col=0)
#3、初步探索数据
#查看数据形状
df.shape
这里需要进行小知识点补充:
**index_col:**一般我们导入数据集都写这句,为啥?一定得写?
当然得看情况,我放完图你就知道什么时候该写了!
- 默认时(不写它)
df=pd.read_csv('qunar_freetrip.csv')
df.head(2)
默认时——重新设置一列作为index
- 写它!index_col=0
df=pd.read_csv('qunar_freetrip.csv',index_col=0)
df.head(2)
数据的第一列作为index
懂了嘛?反正我懂了,哈哈哈!好,继续回归正轨~
-查看数据的结构
#快速了解数据的结构
df.info()
我们查看这个有什么用?
我们可以通过此数据的结构初步判断那些行是否有异常值,缺失值等等,做到心中有数~
**比如:**我们有5100行数据,可是出发地、目的地还有价格节省等不足,说明可能存在数据的缺失;再来,我们又从这个表中看到只有价格和节省是数值型,那么我们肯定得对其进行操作,所以,引出下一点describe()
- 查看数据的描述性统计信息,只显示数值型数据的描述统计
#快速查看数据的描述性统计信息
df.describe() #显示数值型数据的描述统计
这个函数主要是判断异常值的!
我们看最小值的价格和节省差不多,差值不大,再看中位数的价格才1632,可是到了最大值相差太大了,节省和价格也相差挺大的,所以我们初步判断,它可能是个异常值,我们得注意!