[Kaggle Courses]数据清洗 Data Cleaning

最新推荐文章于 2024-05-14 17:20:24 发布

木木Moo

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量534

点赞数 1

分类专栏： Kaggle Courses学习笔记 python 文章标签： sklearn python 机器学习

本文链接：https://blog.csdn.net/m0_55905751/article/details/120044915

版权

一、简介二、数据鸟瞰三、标准化和归一化四、时间处理五、字符处理六、不一致的数据输入

摘要由CSDN通过智能技术生成

文章目录

一、简介
二、数据鸟瞰和空值处理
- - 1. 数据鸟瞰
  - 2. 空值处理
三、缩放（Scaling）、归一化（MinMax）和标准化（Normalization）
- - 1. 缩放和归一化
  - 2. 标准化
四、时间转换
五、字符编码
六、不一致的数据输入

一、简介

数据清洗 是数据科学中的关键一步，它涉及到处理数据空值、删除重复信息、提供正确的数据格式等等。数据清洗往往发生在一个项目最开始的阶段，经常用到的工具是 pandas，还会用到 numpy 和 sklearn 。
通常通过以下方法引入 pandas 和 numpy ：

import pandas as pd
import numpy as np

二、数据鸟瞰和空值处理

1. 数据鸟瞰

通过以下方式查看dataframe中的一些例子:

df.head(n)#从顶部计数n
df.tail(n)#从底部计数n
df.sample(n)#可以进行随机抽样

通过以下方式查看dataframe的数值特征和摘要：

df.describe()
df.info()

2. 空值处理

通过以下方法查看dataframe中每列的的空值：

df.isnull().sum()

通过以下方法可以丢弃空值：

df.dropna(axis=0)
#如果axis = 0就丢弃有空值的行row
#如果axis = 1就丢弃有空值的列columns

通过以下方法填充空值：

df.fillna(
	value = None,#value可以指定所填充的值
	method = None,#method可以指定填充方法

最低0.47元/天解锁文章

木木Moo

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[Kaggle Courses]数据清洗 Data Cleaning

一、简介二、数据鸟瞰三、标准化和归一化四、时间处理五、字符处理六、不一致的数据输入
复制链接

扫一扫

专栏目录