数据预处理

最新推荐文章于 2024-05-11 15:31:43 发布

白水成泉

最新推荐文章于 2024-05-11 15:31:43 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签：数据分析 python 机器学习

本文链接：https://blog.csdn.net/qq_35237976/article/details/115730721

版权

数据可能存在的问题

在实际业务处理中，数据通常是脏数据。所谓的脏，指数据可能存在以下几种问题（主要问题）:

数据缺失（Incomplete）是属性值为空的情况。如 Occupancy = “ ”
数据噪声（Noisy）是数据值不合常理的情况。如 Salary = “-100”
数据不一致（Inconsistent）是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
数据冗余（Redundant）是数据量或者属性数目超出数据分析需要的情况。
数据集不均衡（Imbalance）是各个类别的数据量相差悬殊的情况。
离群点/异常值（Outliers）是远离数据集中其余部分的数据。
数据重复（Duplicate）是在数据集中出现多次的数据。

数据预览

import pandas as pd
import numpy as np
data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据，把path改成文件路径；数据中有中文的话，就用encoding='gbk'，没有中文的话就用encoding='utf-8'；usecols是可以让我们选择哪几列
data.head()#查看前五行
data.i

最低0.47元/天解锁文章

白水成泉

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据预处理

数据可能存在的问题在实际业务处理中，数据通常是脏数据。所谓的脏，指数据可能存在以下几种问题（主要问题）:数据缺失（Incomplete）是属性值为空的情况。如 Occupancy = “ ” 数据噪声（Noisy）是数据值不合常理的情况。如 Salary = “-100” 数据不一致（Inconsistent）是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985” 数据冗余（Redundant）是数据量或者属性数目超出数据分析需要的
复制链接

扫一扫