Pandas数据预处理常用函数

最新推荐文章于 2024-05-14 22:52:44 发布

Eureka丶

最新推荐文章于 2024-05-14 22:52:44 发布

阅读量353

点赞数

分类专栏：数据处理&分析文章标签： python pandas

本文链接：https://blog.csdn.net/Jeremiah_/article/details/120673587

版权

数据处理&分析专栏收录该内容

12 篇文章 1 订阅

订阅专栏

import pandas as pd
import numpy as np

df = pd.DataFrame({'姓名': ['宇智波带土', '波风水门', '野原琳', '旗木卡卡西', '宇智波斑', '波风水门', '旗木卡卡西'],
                   '性别': ['男', '男', '女', '男', '男', '男', '男'],
                   '年龄': ['20', '26', '18', '21', '89', '26', '21'],
                   '身高': ['173.0', '177.0', np.NaN, '175.0', '177.0', '177.0', '175.0'],
                   '体重': [np.NaN, '70.0', '49.0', '68.0', '72.0', '70.0', '68.0']})
df

df.info()

# 数据类型转换
df['年龄'] = df['年龄'].astype(int)
df['身高'] = df['身高'].astype(float)
df['体重'] = df['体重'].astype(float)

df.info()

# 查看重复数据
df[df.duplicated()]

# 删除重复数据
df.drop_duplicates()

# 删除含有空值的行
df.dropna()

# 中位数填充缺失值
df['体重'].fillna(df['体重'].median())

# 均值填充缺失值
df['体重'].fillna(df['体重'].mean())

# 前向填充
df.ffill()

# 后向填充
df.bfill()

* 有关fillna函数的更多细节，可参考：fillna()函数详解_大胡子的博客-CSDN博客_fillna

* 有关缺失值处理原则的更多细节，可参考：缺失值处理python实现_Audrey_Meng的博客-CSDN博客_python缺失值处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Eureka丶

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Pandas数据预处理之数据标准化（参数解析与实战）

mrdeam的博客

04-27

672

在进行机器学习任务时，数据预处理是至关重要的一环。其中，数据标准化是一项关键技术，它可以确保不同特征的值处于相似的尺度，从而提高机器学习模型的性能。在本文中，我们将深入探讨使用Pandas进行数据标准化的方法，并提供详细的代码实例和解析。

Pandas数据预处理1--合并数据

gm1_1的博客

04-15

579

Pandas数据预处理1--合并数据

参与评论您还未登录，请先登录后发表或查看评论

Pandas数据预处理的常用函数

pysense的博客

11-22

2112

文章目录前言1、读取数据文件1.1 读取excel数据文件1.2 读取csv文件1.3 读取数据时，跳过尾行1.4 读取特定分割符的数据文件1.5 使用c或者python作为读取文件的引擎1.6 使用迭代器读取超大文件2、查看数据的基本信息3、有关空值处理3.1 行的空值处理3.2 列的空值处理3.3 空值的填充3.4 空值使用所在列或者所在行的均值、中位数来填补4、dataframe 取（定...

python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

Viewinfinitely的博客

05-14

3958

关于python数据分析之pandas，是数据分析学习和练习实践的文章。涉及数据预处理，数据合并与数据提取三大方面的内容。详细讲述了loc、iloc、ix函数的具体用法和注意事项，以及merge数据表连接、索引列、排序、特定标记、分列、提取字符生成新表、isin条件提取等方面。（需要一定python基础）

pandas数据预处理的常用函数

FW173671849的博客

11-08

155

一、lambda、apply用法。二、日期函数相关的用法。笨人有笨法，老是忘。

第四章 | Pandas数据预处理

m0_73964567的博客

12-26

459

数据合并主要表示两个dataframe的数据集通过某一列具有相同特征的series来拼接和堆叠在一起的过程，方便对应的数据处理，同时被合并的数据具有一定的关联。清洗数据的概念：将表中的一些不符合条件的数据进行清除，或者重新填充值。不符合条件的数据：存在NaN的缺失值、存在异常的值、存在重复性的值。在相同的索引情况表示夏：当表1有数据，但是表2没有数据，则使用NaN表示缺失值。表示：在两张表合并的同时，会将对应位置的数据进行重叠出来，如果有NaN。当表2有数据，表1没有数据，则使用NaN表示缺失值。

python-13-pandas的常用操作和数据处理加速技巧

qq_20466211的博客

10-22

2066

(1)获取数据 (2)数据处理:处理缺失数据,可视化 (3)特征工程 (4)算法训练:模型 (5)模型评估 (6)应用 from numpy import nan as NA 1 滤除缺失数据 SeriesNew = Series.dropna() SeriesNew = Series[Series.notnull()] DataFrameNew = DataFrame.dropna()删除含NA的行 DataFrameNew = DataFrame.dropna(how="all")删除全为NA的行 Da

Pandas统计分析基础与数据预处理.docx

10-23

2. 数据可视化：使用pandas中的常用属属性查看维度、大小、内存占用等信息。三、数据存取函数 1. read_table函数：读取csv数据表，使用sep参数指定分隔符，encoding参数指定编码方式。 2. read_csv函数：读取csv...

3. Pandas数据预处理

weixin_42167712的博客

09-18

4200

目录一、删除属性/特征选择1.1 删除某几列无用的属性、特征1.2 选择，保留某些特定属性1.3 更改特征，属性列的顺序1.4 删除只有一个值的属性二、缺失值处理2.1 只要有缺失值null就删除该行样本2.2 样本中有x个以上的缺失值才删除该行样本2.3 样本种所有数据都缺失才删除该行样本2.4 使用属性列的均值来填充缺失值2.5 使用特定值来填充缺失值2.6 使用缺失值的前一个/后一个值代替N...

Python学习笔记（二）——pandas

SkywalkZH的博客

03-25

258

一、Pandas数据结构 Pandas的数据结构为Dataframe和series。Dataframe 类似于 numpy 中的二维数组，可以通用numpy数组的函数和方法。series类似于numpy中的一维数组，一位数组的函数和方法都通用，且可通过索引标签的方式获取数据，还具索引的自动对齐功能。 1.Dataframe创建： ①通过二维数组创建 arr2 = np.array(np....

python数据分析pandas基础用法

m493096871的博客

04-19

703

import pandas as pd df = pd.read_csv('cancer_data.csv') df.head() # 返回 dataframe 维度的元组 df.shape # 返回列的数据类型 df.dtypes # 虽然供诊断的数据类型是对象，但进一步的 # 调查显示，它是字符串 type(df['diagnosis'][0]) # 返回每列数据的有效描述性统计 d...

Python简单数据清洗

CoCo629vanilla的博客

08-10

9240

我们从网上爬取好的数据，看起来会很乱，我们需要对数据进行再次加工，筛选出我们需要的数据，此时就需要对数据进行清洗。

chatgpt赋能Python-python_bfill

boRRjxBZRf的博客

05-21

190

在 Pandas 中，bfill()是一个处理缺失值的函数，它的作用是向前填充缺失值。本质上，这意味着数据中较早的缺失值将被使用较晚的缺失值的值填充。这种方法能够有效地处理使用时间序列的数据，因为在时间序列分析中，我们通常可以预测未来的数值。我们可以使用df.bfill()语法来使用 Pandas 中的bfill()函数。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的。

pandas处理DataFrame的方法汇总02