pandas 去重_Python之DataFrame常用操作「Pandas类库」

最新推荐文章于 2022-07-12 11:23:35 发布

weixin_39885067

最新推荐文章于 2022-07-12 11:23:35 发布

阅读量179

点赞数

文章标签： pandas 去重 pandas去重 python dataframe 去重 python loc函数 python merge on多个条件 python创建dataframe

一.创建DataFrame

在Python中若想使用类似Spark中的DataFrame数据类型，可以使用Pandas类库中的DataFrame方法，代码如下：

# 创建空DataFrame

df = pd.DataFrame(columns = ['AAA','BBB','CCC','DDD'])

二.添加数据

往DataFrame中添加数据有按索引添加和忽略索引添加两种：

# 插入数据(忽略索引)

df = df.append(df3.loc[i].append(df2.loc[j]), ignore_index=True)

# 按索引添加

df.loc[i] = df3.loc[i].append(df2.loc[j])

三.去重

去重重复数据有保留重复数据的第一行和最后一行以及删除全部重复数据三种方式，分别指定keep参数值为first、last、False；

df = df.drop_duplicates(

　　subset=['AAA','BBB','CCC','DDD'], # 去重列，按这些列进行去重

　　keep='first' # 保存第一条重复数据

)

四.拆分DataFrame

在Python中可以根据某列的具体内容来拆分数据，保存成多个DataFrame。

df2 = df[df['备注'].isin(['1'])]

五.识别DataFrame中的nan

使用math中的isnan函数可以识别数据是否是nan类型的。

if isnan(df.loc[i]['AAA']):

六.DataFrame关联

使用Python中的Pandas类库中的merge函数，可以实现类似表连接的DataFrame关联；代码如下：

df = pd.merge(

　　df, # 左

　　df2, # 右

　　left_on = ['AAA','BBB'], # 左DataFrame匹配列

　　right_on = ['CCC','DDD'],# 右DataFrame匹配列

　　how='inner' # 内连接 (left：左连接，right：右连接，outer：外连接)

)

weixin_39885067

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas 去重_Python之DataFrame常用操作「Pandas类库」

一.创建DataFrame在Python中若想使用类似Spark中的DataFrame数据类型，可以使用Pandas类库中的DataFrame方法，代码如下：# 创建空DataFramedf = pd.DataFrame(columns = ['AAA','BBB','CCC','DDD']) 二.添加数据往DataFrame中添加数据有按索引添加和忽略索引添加两种：# 插入数据(忽略索引)df ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。