【数据分析】【数据清理】快速入门+案例+代码+GIF实操

最新推荐文章于 2023-05-10 01:40:18 发布

卯月七

最新推荐文章于 2023-05-10 01:40:18 发布

阅读量708

点赞数

分类专栏：数据分析 python 文章标签：数据分析机器学习 python

本文链接：https://blog.csdn.net/Matthew_Mao/article/details/105616928

版权

本文介绍了数据分析中数据处理的重要性和常见步骤，包括数据清洗的套路，如缺失值、异常值、重复值的处理。通过案例展示了如何使用Python的pandas、numpy、matplotlib等库进行数据处理，强调了数据质量对建模效果的影响，并推荐使用pandas_profiling进行数据概览。此外，文中提到数据处理应结合业务需求，并养成随时保存数据的习惯。

摘要由CSDN通过智能技术生成

前言：经过前面两篇文章的阅读，我们已经对数据的获取有了一定的概念。在数据挖掘的工作中，我们很大一部分的时间都会花在数据处理和特征工程上面，真正的可视化和建模反而时间占比不大。这是因为，建模要求我们传入的数据是机器可识别的数据，并且数据不包括异常、缺失值。因此，这篇文章主要内容是常见的数据处理的套路总结，下一篇文章是常见的特征工程套路的总结。我将会按照原理、自己的理解、代码实现、案例这四个维度进行常见套路的总结，如果是你需要的话，就继续阅读下去吧。

一：为什么要做数据处理

首先，我们思考一下为什么要做数据处理。要说清楚这个问题，我们首先要对数据建模有一个认知。数据建模是基于已有的数据进行分类、聚合的算法。无论是有监督的数据还是无监督的数据，都是基于数据本身的规律通过算法实现模型构造。因此，当我们的数据中出现缺失值、异常值、无意义的重复值时，就会导致建模精度不高，如此自然也就无法达成我们想要的效果。而这也是数据处理之所以重要的原因。相当于大厦的根基，根基不稳，自然建造不出稳定的房子。

二：一些常见的数据清洗套路

2.1 安装包需求

需要安装有python、并且安装有pandas、numpy、matplotlib、sklearn、jupyter lab三方包。后续要使用到或者推荐到其它的三方包会进行说明。强烈建议安装Anaconda解决上述安装问题。再在Anaconda里面安装jupyter lab即可解决问题。
ps:如果对数据如何读入，以及索引等感兴趣，可以到哔哩哔哩观看我之前录制的pandas和numpy的教学视频：https://www.bilibili.com/video/BV1A7411D758/

2.2 数据

我们的数据来源于kaggle：https://www.kaggle.com/c/titanic
或者也可以访问天池：https://tianchi.aliyun.com/dataset/dataDetail?dataId=58756
二者都可以得到我们要使用的titanic数据。接下来我们为这个数据集添加一些缺失值、重复值和异常值吧。

import pandas as pd
import numpy as np
import os,random
os.chdir(r'D:\Data\Datas Analysis\learn\official\base\titanic')

# 首先要获得我们的泰坦尼克数据
datas = pd.read_csv('train.csv')

# 明确我们的缺失值、重复值、异常值
na_value = np.nan
duplicate_vlaues = []
exception_values = [99999999,0.0000001,'卯月']

# 找到我们待会儿要使用的随机索引
rows = random.sample(range(891),50)
columns = random.sample(range(12),6)

# step1 ： 获得我们的重复值
for _ in range(10):
  i = random.choice(rows)
  duplicate_value = datas.iloc[i,:]
  duplicate_vlaues.append(duplicate_value)

duplicate_vlaues = pd.DataFrame(duplicate_vlaues)
# 覆盖原数据并且重置索引
datas = pd.concat((datas,duplicate_vlaues),axis=0,ignore_index=True)

# step2 ：设定我们的缺失值
for _ in range(50):
  i = random.choice(rows)
  j = random.choice(columns)
  datas.iloc[i,j] = np.nan

# step3 : 设定我们的异常值
for _ in range(50):
  i = random.choice(rows)
  j = random.choice(columns)
  exception_value = random.choice(exception_values)
  datas.iloc[i,j] = exception_value

# 将我们修改后的数据保存到一个新的csv文件中
datas.to_csv('matt_train.csv')