python数据清洗基础一——初步探索数据

最新推荐文章于 2024-09-04 17:02:10 发布

就想做一条闲鱼

最新推荐文章于 2024-09-04 17:02:10 发布

阅读量679

点赞数 5

分类专栏： python科学计算文章标签：数据分析 python

本文链接：https://blog.csdn.net/qq_43893755/article/details/115309938

版权

python科学计算专栏收录该内容

10 篇文章 2 订阅

订阅专栏

今天整理了数据清洗的基本操作用一个数据样例实操，相当于小实战，熟悉巩固知识。

初步探索数据

这一步是已经完成了导包、导数据的操作

查看数据的形状
我们得先初步了解一下我们拿到的数据表有多少数量，心中有个数。

# 1、导入相关包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#2、导入数据集
df=pd.read_csv('qunar_freetrip.csv',index_col=0)

#3、初步探索数据
#查看数据形状
df.shape

这里需要进行小知识点补充：
**index_col：**一般我们导入数据集都写这句，为啥？一定得写？
当然得看情况，我放完图你就知道什么时候该写了!

默认时（不写它）

df=pd.read_csv('qunar_freetrip.csv')
df.head(2)

在这里插入图片描述默认时——重新设置一列作为index

写它！index_col=0

df=pd.read_csv('qunar_freetrip.csv',index_col=0)
df.head（2）

在这里插入图片描述
数据的第一列作为index
懂了嘛？反正我懂了，哈哈哈！好，继续回归正轨~

-查看数据的结构

#快速了解数据的结构
df.info()

在这里插入图片描述我们查看这个有什么用？
我们可以通过此数据的结构初步判断那些行是否有异常值，缺失值等等，做到心中有数~
**比如：**我们有5100行数据，可是出发地、目的地还有价格节省等不足，说明可能存在数据的缺失；再来，我们又从这个表中看到只有价格和节省是数值型，那么我们肯定得对其进行操作，所以，引出下一点describe()

查看数据的描述性统计信息，只显示数值型数据的描述统计

#快速查看数据的描述性统计信息
df.describe() #显示数值型数据的描述统计

在这里插入图片描述

这个函数主要是判断异常值的！
我们看最小值的价格和节省差不多，差值不大，再看中位数的价格才1632，可是到了最大值相差太大了，节省和价格也相差挺大的，所以我们初步判断，它可能是个异常值，我们得注意！

就想做一条闲鱼

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录