数据清洗

九久呀

于 2021-02-25 21:52:20 发布

阅读量203

点赞数 2

分类专栏：深度学习入门与进阶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38851184/article/details/114107239

版权

深度学习入门与进阶专栏收录该内容

48 篇文章 1 订阅

订阅专栏

脏数据就是再物理上存在过，但是逻辑上并不存在的数据。
数据清洗是整个数据分析过程的第一步，就像做一道菜之前需要先择菜洗菜一样。
数据预处理方法：
1、部署环境，导入分析包和数据

import pandas as pd
import numpy as np

fileNameStr = '文件名'
DataDF = pd.read_csv()

2、尝试去理解这份数据

我们可以通过对数据集提问来判断这份数据能不能满足解答我们的问题，数据是否干净需不需要进一步处理，问题包括但不限于：

数据集多少数据？
包含了什么字段？
字段格式是什么？
格式是否统一
是否存在乱码
字段分别代表什么意义
字段之间的关系是什么？可以用做什么分析？或者说能否满足了对分析的要求？
有没有缺失值；如果有的话，缺失值多不多？
现有数据里面有没有脏数据？尤其需要注意人工输入的数据，经常会出现名称写错，多输入空格等等的情况

根据以上问题对数据进行修正。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据清洗

脏数据就是再物理上存在过，但是逻辑上并不存在的数据。数据清洗是整个数据分析过程的第一步，就像做一道菜之前需要先择菜洗菜一样。数据预处理方法：1、部署环境，导入分析包和数据import pandas as pdimport numpy as npfileNameStr = '文件名'DataDF = pd.read_csv()2、尝试去理解这份数据我们可以通过对数据集提问来判断这份数据能不能满足解答我们的问题，数据是否干净需不需要进一步处理，问题包括但不限于：数据集多少数据？包含
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

九久呀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。