数据预处理

数据可能存在的问题

在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):

  1. 数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”
  2. 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”
  3. 数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
  4. 数据冗余 (Redundant)是数据量或者属性数目超出数据分析需要的情况。
  5. 数据集不均衡 (Imbalance)是各个类别的数据量相差悬殊的情况。
  6. 离群点/异常值 (Outliers)是远离数据集中其余部分的数据。
  7. 数据重复(Duplicate)是在数据集中出现多次的数据。

数据预览

import pandas as pd
import numpy as np
data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据,把path改成文件路径;数据中有中文的话,就用encoding='gbk',没有中文的话就用encoding='utf-8';usecols是可以让我们选择哪几列
data.head()#查看前五行
data.i
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值