pandas 去重_Python之DataFrame常用操作「Pandas类库」

一.创建DataFrame

在Python中若想使用类似Spark中的DataFrame数据类型,可以使用Pandas类库中的DataFrame方法,代码如下:

# 创建空DataFrame

df = pd.DataFrame(columns = ['AAA','BBB','CCC','DDD'])

二.添加数据

往DataFrame中添加数据有按索引添加和忽略索引添加两种:

# 插入数据(忽略索引)

df = df.append(df3.loc[i].append(df2.loc[j]), ignore_index=True)

# 按索引添加

df.loc[i] = df3.loc[i].append(df2.loc[j])

三.去重

去重重复数据有保留重复数据的第一行和最后一行以及删除全部重复数据三种方式,分别指定keep参数值为first、last、False;

df = df.drop_duplicates(

  subset=['AAA','BBB','CCC','DDD'], # 去重列,按这些列进行去重

  keep='first' # 保存第一条重复数据

)

四.拆分DataFrame

在Python中可以根据某列的具体内容来拆分数据,保存成多个DataFrame。

df2 = df[df['备注'].isin(['1'])]

2a2d314c824cce7577558288d2a9ae76.png

五.识别DataFrame中的nan

使用math中的isnan函数可以识别数据是否是nan类型的。

if isnan(df.loc[i]['AAA']):

六.DataFrame关联

使用Python中的Pandas类库中的merge函数,可以实现类似表连接的DataFrame关联;代码如下:

df = pd.merge(

  df, # 左

  df2, # 右

  left_on = ['AAA','BBB'], # 左DataFrame匹配列

  right_on = ['CCC','DDD'],# 右DataFrame匹配列

  how='inner' # 内连接 (left:左连接,right:右连接,outer:外连接)

)

0ac144cdaf4e986ccb2f6038c0cb8492.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值