python预处理后变量情况描述_【数据预处理】python旅游网站数据清洗实践

最新推荐文章于 2023-05-12 19:06:21 发布

zibuyu9

最新推荐文章于 2023-05-12 19:06:21 发布

阅读量209

点赞数

文章标签： python预处理后变量情况描述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29231725/article/details/113994534

版权

利用python进行数据预处理，不能离开pandas，我看过的教程在介绍数据预处理时的流程都是：numpy介绍、pandas介绍、数据预处理。

对于numpy和pandas，我的经验是不用刻意去记，知道他们分别是干嘛的(别人问到不至于说不出来)，使用方法要有个印象，然后实际运用中有需要再去查就可以。

numpy：科学计算

pandas：基于numpy，非常适合于数据预处理。本案例的数据预处理思路：【重点】重复值、异常值、缺失值；【细节】格式清洗、数据提炼(在该案例中没有进一步数据提炼)。

1. 导入数据，并查看数据的基本情况：

import pandas as pd

data = pd.read_csv('./qunar_freetrip.csv', index_col=0)

print(data.shape) # 几行几列

print(data.info()) # 数据框信息

print(data.describe()) # 数据描述性统计，只统计数值型的变量

print(data.columns) # 返回数据框列名称数据框，输出的详细信息截图省略

从这一步的结果来看，可以初步判定：数据存在缺失值(总数据共5100条，但是出发地、目的地、价格、节省四个变量下数据量都小于5100)。

数据可能存在异常值(描述性统计中，价格最大值达到179500，不符合实际情况，需要后续标准分判断是否属于异常值)。

数据可能存在重复。

数据的列名有些存在空格，有些没有空格，需

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python预处理后变量情况描述_【数据预处理】python旅游网站数据清洗实践

利用python进行数据预处理，不能离开pandas，我看过的教程在介绍数据预处理时的流程都是：numpy介绍、pandas介绍、数据预处理。对于numpy和pandas，我的经验是不用刻意去记，知道他们分别是干嘛的(别人问到不至于说不出来)，使用方法要有个印象，然后实际运用中有需要再去查就可以。numpy：科学计算pandas：基于numpy，非常适合于数据预处理。本案例的数据预处理思路：【重点...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。