数据挖掘笔记之简单数据清洗

最新推荐文章于 2022-03-23 18:17:27 发布

菀青

最新推荐文章于 2022-03-23 18:17:27 发布

阅读量351

点赞数

分类专栏：数据基础文章标签：数据清洗

本文链接：https://blog.csdn.net/qq_32733847/article/details/97374965

版权

本文介绍了数据清洗的关键步骤，包括检查并删除重复值，处理缺失值（删除、替换、插补）以及异常值的检测和处理。对于缺失值，提出了删除法、替换法和插补法；异常值处理则涉及n个标准差法和箱图法。此外，还讲解了如何使用iloc, loc, ix获取数据子集。" 81382709,7502907,DKHadoop安装全攻略：轻松实现三节点部署,"['hadoop安装教程', '大数据开发', 'Linux系统', 'DKHadoop']

摘要由CSDN通过智能技术生成

判断数据是否有重复值

any(df.deplicated())

#any函数：在多个条件判断中，只要有一个条件为True，any的结果为True。

删除重复项

df.drop_deplicates(inplace=True)

缺失值

删除法：比例小于5%或大于85%
替换法：连续变量使用均值和中位数，离散使用众数
插补法：回归插补，K邻近插补，拉格朗日插补

判断是否有缺失值

any(df.is_null())

删除缺失值

df.dropna()
df.drop('age',axis=1)

前向替换，后向替换

df.fillna(method='ffill')
df.fillna(method='billf')

常数替换，统计值替换

df.fillna(value=0)
df.fillna('gender':df.gender.mode()[0],
		'age':df.age.mean(),
		'income':df.income.median())

dropna,drop,fillna方法使用inplace=True改变原table

异常值处理

异常值检测有两种：

①n个标准差法

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菀青

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数据挖掘中的数据清洗方法大全

燕哥带你学算法

11-03

3712

作者：章华燕编辑：黄俊嘉在数据挖掘领域，经常会遇到的情况是挖掘出来的特征数据存在各种异常情况，如数据缺失、数据值异常等。对于这些情况，如果不加以处理，那么会直接影响到最终挖掘模型建立后的使用效果，甚至是使得最终的模型失效，任务失败。所以对于数据挖掘工程师来说，掌握必要的数据清洗方法是很有必要的！接下来本文就依次讲解如何处理数据值缺失和数据值异常两种情况的处理。

【Python】Pandas 数据清洗操作，常用函数总结

最新发布

赵继超的笔记

08-07

1120

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。方法可以帮助我们清洗重复数据。如果对应的数据是重复的，duplicated() 会返回 True，否则返回 False。方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。注意：默认情况下，dropna() 方法返回一个新的 DataFrame，不会修改源数据。数据清洗是对一些没有用的数据进行处理的过程。方法可以删除重复数据。

参与评论您还未登录，请先登录后发表或查看评论

【数据挖掘】数据清洗——空缺值全局替换代码实现

晚安Alice

11-27

2214

# -*- coding = utf-8 -*- # @Time : 2021/11/27 12:16 # @Author : NKY # @File : repalce.py # @Sofeware : PyCharm import numpy as np from sklearn.impute import SimpleImputer import pandas as pd data_url = "diabetes.csv" df = pd.read_csv(data_url) imp = Sim

数据挖掘：数据清洗、转换和消减

栖客

11-16

6231

转载自：http://blog.csdn.net/wang20054479/article/details/33389217 一、数据预处理包括数据清洗、数据集成、数据转换和数据消减： 1、 数据清洗（data cleaning）处理例程通常包括：填补遗漏的数据值、平滑有噪声数据、识别或除去异常值，以及解决不一致问题。 2、数据集成（data integration）就

数据清理

wanpi931014的博客

05-16

1008

数据清理试图填充缺失值，光滑噪声并识别离群点，纠正数据中的不一致。 1、缺失值的处理（1）忽略元祖：有些数据挖掘算法可以自动忽略缺失数据（2）人工填写缺失值：很费时，特别是缺失数据集较多时，不可实现（3）使用一个全局常量填充缺失值：如Unknown （4）使用属性的均值填充缺失值：平均工资（5）使用与给定元祖属同一类的所有样本的属性均值：不同性别的平均工资（6）使用最可能的

数据挖掘导论——分类与预测

上山打老虎的博客

03-23

5653

数据挖掘导论——分类与预测实验内容背景介绍数据实验要求实验过程一、首先引入数据分析以及模型所需要的库二、进行数据的读取三、进行数据分析1、Sex：性别比例2、PClass：船舱等级3、PClass，Sex：船舱等级与性别4、Age：年龄5、Embarked：登船地点6、Sibsip：兄弟姐妹的数量7、Parch：8、Fare：船票的价格四、数据清洗1、年龄2、Family_size：家庭总人数3、船票价格4、去掉不必要的特征：五、进行建模实验内容背景介绍泰坦尼克号于1909年3月31日在爱尔兰动工建造

数据挖掘学习笔记（一）

01-20

数据挖掘和数据分析是现代信息技术领域中的重要组成部分，它们在大数据时代扮演着不可或缺的角色。本文将深入探讨这两个概念，以及它们之间的联系与区别。首先，数据分析是通过对收集到的数据应用统计分析方法来...

数据挖掘笔记01-031

08-03

在数据挖掘笔记01-031中，主要涉及了数据预处理、SQL查询、在线分析处理（OLAP）以及了解数据等核心概念。 1. 数据预处理：数据预处理是数据挖掘的关键步骤，它包括了数据清洗、数据集成、数据转换和数据规约四大...

《数据挖掘概念与技术》-思维导图学习笔记，第一章。

03-24

《数据挖掘概念与技术》是数据科学领域的一本经典教材，它深入浅出地介绍了数据挖掘的基本概念和技术。思维导图作为一种有效的学习工具，能够帮助读者更好地理解和记忆书中的核心内容。在这里，我们重点关注第一章的...

海南大学数据挖掘入土笔记.pdf

06-27

知识发现的过程包含了一系列的步骤：数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表现。数据清洗是去除数据集中的错误、重复和残缺数据的过程；数据集成是将来自不同来源的数据综合起来的过程...

第五章Python数据处理工具 ——Pandas

SunnyRivers

07-18

2489

前言上一章向读者介绍了有关数值计算的numpy模块，通过numpy模块可以非常方便地调用各种常用的数学和统计函数。本章将介绍强大的数据处理模块Pandas，该模块可以帮助数据分析师轻松地解决数据的预处理问题，如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。通过本章内容的学习，读者将会掌握如下知识点，进而在数据处理过程中做到游刃有余，为后续的数据分析或机器学习做准备：两种重要的...

第三章16节-Pandas运用之缺失值处理

weixin_45441862的博客

11-01

1352

缺失值首先需要实际情况定义可以采取直接删除法有时候需要使用替换法或者插值法 1、统计缺失值的数量首先读取数据查看数据集中缺失值的情况 df.isnull() 统计每一列缺失值的数量 np.sum(df.isnull())，其参数axis默认值为0，表示按行的方向进行统计，显示的结果就是每一列的缺失值的数量统计每一行缺失值的数量 np.sum(df.isnull(),axis = 1)，表示按列的方向进行统计，显示结果就是每一行的缺失值的数量 2、统计每行缺失...

剑指offer面试题4：字符串替换——原地从后往前替换

MaxineZhou的博客

02-23

427

1.题目字符串替换要求：将所有字符串中的空格换成%20，如“how are you”要换成"how%20are%20you" 2.解法解法一：从前到后复制：时间复杂度为O(n^2)的解法，从前都后原地复制字符串，由于是原地复制，所以在计算好新字符串长度之后，从前到后复制就要求原字符串中有一个空格，空格后面的所有字符就要向后移动两位，时间复杂度过大，太麻烦解法二：从后到前复制，时间复杂...

前向-后向算法(Forward-backward algorithm)

热门推荐

yyyljw的博客

11-30

2万+

根据观察序列生成隐马尔科夫模型(Generating a HMM from a sequence of obersvations) 　　与HMM模型相关的“有用”的问题是评估（前向算法）和解码（维特比算法）——它们一个被用来测量一个模型的相对适用性，另一个被用来推测模型隐藏的部分在做什么（“到底发生了”什么）。可以看出它们都依赖于隐马尔科夫模型（HMM）参数这一先验知识——状态

【论文笔记】A promotion method for generation error-based video anomaly detection

weixin_44174163的博客

11-19

708

关键词： GE-based 、 block-level GE 、摘要基于生成误差(GE)的方法在此任务中表现出良好的性能。该方法首先训练生成神经网络生成正态样本，然后将梯度（GEs）较大的样本判断为异常。几乎所有基于GE的方法都利用框架级GEs来检测异常。然而，异常通常发生在局部区域，帧级GE将正常区域的GEs引入异常检测中，这带来了两个问题 i）正常区域的GEs降低了异常帧的异常显著性 ii）不同的视频具有不同的正态水平，很难对不同的视频设置一个统一的阈值来检测异常。针对这些问题，我们提出一种推广方法

2020-09-15【学习笔记】【主数据驱动的数据治理】十一、数据质量管理

qihoo233的博客

09-15

331

数据质量管理：是指针对数据从计划、获取、存储、共享、维护、应用、消亡周期的每个阶段里可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平，是的数据质量进一步提高。一、数据质量的定义 1、数据质量 2、数据质量维度 3、数据质量评估 4、数据剖析 5、数据质量问题和数据管理问题 6、合理性检查 7、数据质量阈值 8、过程控制 9、联机数据质量的检测和监控二、数据质量评估框架 1、数据质量评估框架的背景 2、数据质量评估框架的范.

机器学习之基础算法（数据清理和特征选取）

qq_41514914的博客

04-12

215

目录公交车堵车概率模型计算赔率PandasPCA数据清洗和数据处理LR 公交车堵车概率模型 #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt def clip(x, path): for i in ra...

关于数据清洗的常见方式

ItStar

08-15

4715

1.探索性分析探索性分析部分，对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程，在我做相关数据挖掘的过程中，主要是利用python相关的科学...

海南大学数据挖掘课程笔记：知识发现与技术演化

"海南大学数据挖掘入土笔记.pdf" 数据挖掘是计算机科学领域的一个关键分支，专注于在海量数据中寻找有价值的、潜在有用的信息，并将其转化为可理解的模式和规则。在海南大学软件工程专业的数据挖掘课程中，学生们...