python预处理后变量情况描述_【数据预处理】python旅游网站数据清洗实践

利用python进行数据预处理,不能离开pandas,我看过的教程在介绍数据预处理时的流程都是:numpy介绍、pandas介绍、数据预处理。

对于numpy和pandas,我的经验是不用刻意去记,知道他们分别是干嘛的(别人问到不至于说不出来),使用方法要有个印象,然后实际运用中有需要再去查就可以。

numpy:科学计算

pandas:基于numpy,非常适合于数据预处理。本案例的数据预处理思路:【重点】重复值、异常值、缺失值;【细节】格式清洗、数据提炼(在该案例中没有进一步数据提炼)。

1. 导入数据,并查看数据的基本情况:

import pandas as pd

data = pd.read_csv('./qunar_freetrip.csv', index_col=0)

print(data.shape) # 几行几列

print(data.info()) # 数据框信息

print(data.describe()) # 数据描述性统计,只统计数值型的变量

print(data.columns) # 返回数据框列名称数据框,输出的详细信息截图省略

从这一步的结果来看,可以初步判定:数据存在缺失值(总数据共5100条,但是出发地、目的地、价格、节省四个变量下数据量都小于5100)。

数据可能存在异常值(描述性统计中,价格最大值达到179500,不符合实际情况,需要后续标准分判断是否属于异常值)。

数据可能存在重复。

数据的列名有些存在空格,有些没有空格,需

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值