4.11 数据预处理-2

最新推荐文章于 2024-08-03 04:06:50 发布

chenos121

最新推荐文章于 2024-08-03 04:06:50 发布

阅读量33

点赞数

文章标签： pandas numpy

本文链接：https://blog.csdn.net/chenos121/article/details/134356366

版权

本文讲述了如何在数据分析中检测和处理重复值，包括数据重复和特征重复的情况。介绍了pandas库中的duplicated()和drop_duplicates()方法用于删除重复数据，以及使用corr()方法计算特征间的相关性进行特征去重。强调了相关系数的意义，如Pearson相关系数，以及如何通过散点图和scatter_matrix来评估特征间的关系。

摘要由CSDN通过智能技术生成

import pandas as pd

4.11.2 检测与处理重复值

1.数据重复

数据重复，即一个或者多个特征某几个记录的值完全相同

要清洗重复数据，可以使用 duplicated()和 drop_duplicates()方法
若对应的数据是重复的，duplicated() 会返回 True，否则返回 False
删除重复数据，可以直接使用drop_duplicates()方法

pandas提供了一个名为drop_duplicates的去重方法。该方法不仅支持单一特征的数据去重，还能够依据DataFrame的其中一个或者几个特征进行去重操作。

pandas.DataFrame(Series).drop_duplicates(self, subset=None, keep='first', inplace=False)

In [2]:

df1 = pd.DataFrame({'类型':['A','B','A','B','A'],'数目':[30,15,30,15,18]})
df1

Out[2]:

	类型	数目
0	A	30
1	B	15
2	A	30
3	B	15
4	A	18

In [3]:

df1.duplicated()

Out[3]:

0    False
1    False
2     True
3     True
4    False
dtype: bool

In [4]:

df1.drop_duplicates()

Out[4]:

	类型	数目
0	A	30
1	B	15
4	A	18

In [5]:

df1.drop_duplicates().reset_index(drop=True)

Out[5]:

	类型	数目
0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chenos121

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

4.11 数据预处理-4

chenos121的专栏

11-12

st1['身高标准差标准化']=StandardScaler(st1['身高'])st1['体重标准差标准化']=StandardScaler(st1['体重'])st1['身高小数定标标准化']=DecimalScaler(st1['身高'])st1['体重小数定标标准化']=DecimalScaler(st1['体重'])st1['体重离差标准化']=MinMaxScale(st1['体重'])st1['身高离差标准化']=MinMaxScale(st1['身高'])## 自定义离差标准化函数。

4.11 数据预处理-5

chenos121的专栏

11-13

使用pandas可以很方便的对离散型特征进行one-hot编码, 一般来说，进行onehot编码后，如果有N个特征，已知前N-1个特征的特征值之后，第N个特征的特征值也就知道了。['优', '优', '差', '优', '及格', ..., '差', '良', '中', '及格', '差']['优', '良', '差', '优', '差', ..., '差', '中', '差', '差', '差']Categories (5, object): ['差' < '及格' < '中' < '良' < '优']

参与评论您还未登录，请先登录后发表或查看评论

4.11 数据预处理-3

chenos121的专栏

11-12

比如在分析银行欺诈案例时，核心就是要发现异常值，这个时候异常值对我们是有用的，再比如，在统计某个城市的平均收入的时候，有人月收入是好几个亿，这个时候这个人就是一个异常值，这个异常值会拉高城市的整体平均收入，因此可能会得到一个不真实的分析结果。四分位数给出了数据分布的中心、散布和形状的某种指示，具有一定的鲁棒性，即 25% 的数据可以变得任意远而不会很大地扰动四分位数，所以异常值通常不能对这个标准施加影响，鉴于此，箱线图识别异常值的结果比较客观，因此在识别异常值方面具有一定的优越性。

4.11 数据预处理-1

chenos121的专栏

11-12

数据操作，数据预处理

qq_52902529的博客

08-03

846

如果在后续计算中没有重复使用X，即内存不会过多复制，也可以使用X[:] = X + Y 或 X += Y 来减少操作的内存开销。机器学习用的最多的是N维数组，N维数组是机器学习和神经网络的主要数据结构。常见的标准算术运算符(+、-、*、/、和 **)都可以被升级为按元素运算。可以用[-1]选择最后一个元素，可以用[1:3]选择第二个和第三个元素。可以通过张量的shape属性来访问张量的形状和张量中元素的总数。为多个元素赋值相同的值，只需要索引所有元素，然后为它们赋值。创建数组需要：形状、数据类型、元素值。

python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习...

weixin_42513028的博客

12-28

1024

内容简介O'Reilly Media, Inc．介绍第1章向量、矩阵和数组1.0 简介1.1 创建一个向量1.2 创建一个矩阵1.3 创建一个稀疏矩阵1.4 选择元素1.5 展示一个矩阵的属性1.6 对多个元素同时应用某个操作1.7 找到最大值和最小值1.8 计算平均值、方差和标准差1.9 矩阵变形1.10 转置向量或矩阵1.11 展开一个矩阵1.12 计算矩阵的秩1.13 计算行列式1.14 ...

手把手教你用python零基础玩转机器智能金融交易 01 数据预处理与特征建立

zhaotian151的博客

04-07

724

这个项目是上学的时候做的，作为在金融领域零基础的人先择了这样一个项目确实有一点点挑战，但最终做下来还是有些收获，希望通过这篇文章分享给各位。这篇文章适合想用**python做自动交易的初学者和进阶人士**（或许会给你提供一些小的idea），以及想学习**数据科学相关理论和实战代码**的同学们。文章会分为数据处理、建模、回测、以及自动交易四个大部分。

C语言K&R圣经笔记 4.10递归 4.11 C预处理

十八年后又是一条好汉的博客

12-27

1070

C 语言的某些机制是以预处理的方式提供的，预处理从概念上来说，是在编译过程中单独的第一步。两个最常用的预处理特性分别是 #include，用于在编译期间包含一个文件的内容，以及 #define，用来将一个标识符替换成为任意的字符序列。如果替换文本中的参数与 ## 相连，则参数会被替换成实参，## 及其两边的空格会被删除，得到的结果会被再次扫描。在双引号字符串内的形参是不会被替换的。然而，如果在替换文本中，形参以 # 开头，则这个组合（即 # 和形参）会被扩展成一个双引号字符串，其中的参数被替换为实参。

基于HTML和Java的2021年NBA球星信息管理系统设计源码

09-28

本项目是一款基于HTML和Java开发的NBA球星信息管理系统源码，共包含84个文件，涵盖23个Java源文件、23个JPG图片文件、10个ICO图标文件、9个HTML页面文件、5个属性文件、4个PNG图片文件、2个XML配置文件、2个SQL数据库文件、1个Git忽略文件和1个JAR库文件。该系统专注于管理2021年NBA球星的相关信息，旨在提供高效的信息管理解决方案。

基于IPv6的智能机器人园区异常情况监测系统，包括无线传感器网络、智能巡

09-28

基于IPv6的智能机器人园区异常情况监测系统，包括无线传感器网络、智能巡检机器人、监控数据服务器、主_ipv6intellmonitrsystem

09-28

数据治理是确保数据准确性、可靠性、安全性、可用性和完整性的体系和框架。它定义了组织内部如何使用、存储、保护和共享数据的规则和流程。数据治理的重要性随着数字化转型的加速而日益凸显，它能够提高决策效率、增强业务竞争力、降低风险，并促进业务创新。有效的数据治理体系可以确保数据在采集、存储、处理、共享和保护等环节的合规性和有效性。数据质量管理是数据治理中的关键环节，它涉及数据质量评估、数据清洗、标准化和监控。高质量的数据能够提升业务决策的准确性，优化业务流程，并挖掘潜在的商业价值。随着大数据和人工智能技术的发展，数据质量管理在确保数据准确性和可靠性方面的作用愈发重要。企业需要建立完善的数据质量管理和校验机制，并通过数据清洗和标准化提高数据质量。数据安全与隐私保护是数据治理中的另一个重要领域。随着数据量的快速增长和互联网技术的迅速发展，数据安全与隐私保护面临前所未有的挑战。企业需要加强数据安全与隐私保护的法律法规和技术手段，采用数据加密、脱敏和备份恢复等技术手段，以及加强培训和教育，提高安全意识和技能水平。数据流程管理与监控是确保数据质量、提高数据利用率、保护数据安全的重要环节。有效的数据流程管理可以确保数据流程的合规性和高效性，而实时监控则有助于及时发现并解决潜在问题。企业需要设计合理的数据流程架构，制定详细的数据管理流程规范，并运用数据审计和可视化技术手段进行监控。数据资产管理是将数据视为组织的重要资产，通过有效的管理和利用，为组织带来经济价值。数据资产管理涵盖数据的整个生命周期，包括数据的创建、存储、处理、共享、使用和保护。它面临的挑战包括数据量的快速增长、数据类型的多样化和数据更新的迅速性。组织需要建立完善的数据管理体系，提高数据处理和分析能力，以应对这些挑战。同时，数据资产的分类与评估、共享与使用规范也是数据资产管理的重要组成部分，需要制定合理的标准和规范，确保数据共享的安全性和隐私保护，以及建立合理的利益分配和权益保障机制。

Umi-OCR文字识别小软件，适用于windows系统