数据整理

数据整理

1、收集数据:

(1)下载

  • 手动下载文件
  • 以编程方式下载文件(可扩展性和重复性)

(2)打开Jupyter Notebook

在终端输入命令提示符。在这之前,应在运行命令的目录下开启Notebook服务器,将Notebook文件保存到指定目录下。在该目录下,我们更容易导入外部文件,比如下载的数据集。

(3)收集:解压压缩文件

1)将zip文件移动到工作目录(最好把所有文件放在同一个位置);

2)python解压

import zipfile
with zipfile.Zipfile('xxx.zip', 'r') as myzip:
		myzip.extractall()

(4)导入

pd.read_csv(),将解压的csv文件导入到pandas DataFrame。

2、数据评估

(1)数据属性

1)质量
低质量数据被称为脏数据。主要包括的问题如下:
  • 数据丢失
  • 数据无效,比如年龄实际应为正数,变成了负数,数据类型应为整数,变成了字符串。
  • 数据不准确,比如实际体重为0.025公斤,而不是250公斤。
  • 数据不一致,比如使用不同的长度单位。
2)整洁度
不整洁数据被称为杂乱数据,即存在结构问题。
具有条理的数据具有以下特征:
  • 每个变量构成一列;
  • 每个观察结果构成一行;
  • 每种类型的观察单位构成一个表格。

(2)数据评估

1)目测评估
2)编程评估 :.info、.head、.tail

3、数据清洗

(1)手动(不推荐)

(2)编程

1)定义:将评估转换为定义的清洗任务,这些定义可作为指令列表,方便回顾和重现自己的工作;
2)代码:将定义转换为代码并运行;
3)测试:可视或使用代码练习数据集,确保清洗操作可顺序进行。

4、重新评估与迭代

5、存储

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值