Pandas数据清洗时的常用函数，叼爆了呀！

最新推荐文章于 2023-08-07 04:42:09 发布

道-闇影

最新推荐文章于 2023-08-07 04:42:09 发布

阅读量248

点赞数 1

文章标签： python pandas

本文链接：https://blog.csdn.net/qq_41200768/article/details/120701177

版权

六边形战士，你知道的越多，不知道的越多！

pands进阶使用来了，让你的数据清洗快人一步，Let‘s go ！

在这里插入图片描述

文章目录

0.导数
1.cat :连接
2.contains：是否包含
3.count：统计频数
4.slice_replace：切片替换
5.split+expand：分割并铺开

今天用到的库是：os（？？？），pandas

from os import sep
import pandas as pd

0.导数

data ={'name':[' 黄同学','黄至尊','黄老邪 ','陈大美','孙尚香'],
     'en_name':['Huang tong_xue','huang zhi_zun','Huang Lao_xie','Chen Da_mei','sun shang_xiang'],
     'sex':['男','women','men','女','男'],
     'idcard':['463895200003128433','429475199912122345','420934199110102311','431085200005230122','420953199509082345'],
     'height':['mid:175_good','low:165_bad','low:159_bad','high:180_verygood','low:172_bad'],
     'address':['湖北广水','河南信阳','广西桂林','湖北孝感','广东广州'],
     'phone':['13434813546','19748672895','16728613064','14561586431','19384683910'],
     'salary':['1.1万','8.5千','0.9万','6.5千','2.0万']}

df=pd.DataFrame(data)
print(df)

1.cat :连接

df2=df['name'].str.cat(df['address'],sep='---')
print(df2)

在这里插入图片描述

2.contains：是否包含

df3=df['address'].str.contains("湖北")
print(df3)

在这里插入图片描述

3.count：统计频数

df4=df['phone'].str.count("1")
print(df4)

在这里插入图片描述

4.slice_replace：切片替换

df5=df['phone'].str.slice_replace(3,7,"****")
print(df5)

在这里插入图片描述

5.split+expand：分割并铺开

df[['last_name','first_name']]=df['en_name'].str.split(" ",expand=True)
print(df.head(1))

# 补充：startswith/endswitch/get/len/upper/lower/replace/strip/findall/extract