Pandas清洗函数

14 篇文章 2 订阅
10 篇文章 1 订阅

cat():字串拼接

import pandas as pd
df={'name':['Rose','Joy','Mike'},
    'address':['Landon','Newyork','Paris'],
    'height':['mid:176cm_middle','low:169cm_lowest','high:180_highest'],
    'salary':['2,300dollar','3,200dollar','5,800dollar']}
df=pd.DataFrame(df)
df['name'].str.cat(df['address'],dep=':'+'-'*2

contains():包含

df['address'].str.contains('L')

startswith(),endswith(): 开始包含,结尾包含,用法同上

count(): 计算字串中字符个数,用法同上

get(): 得到指定位置的子串

df['height'].str.split(":").str.get(1)

len(): 计算字串长度

upper,lower大小写转换

pad,center: 指定位置添加字符:

df['address'].str.pad(3,side="left",fillchar='#')   #同ljust
df['address'].str.pad(3,side="right",fillchar='#')   #同rjust
df['address'].str.center(3,fillchar='#') 

repeat:重复子串若干次

slice_replace:替换指定位置字符

replace:替换指定字符

df['salary'].str.replace("\d+\.\d+","$")

split+expand:扩展数据列

df[["height_1","height_f"]]=df["height"].str.split(":",expand=True)

split+join :分隔后以特定字符连接子串

df["height"].str.split(":").str.join("#"*3)

strip,ltrip,rtrip:去除空格、回车符

findall:用正则匹配字符串

df["height"].str.findall("[a-zA-Z]+")

extract,extractall:用正则抽取匹配的字串.注意加上括号

df["height"].str.extract("([a-zA-Z]+)")
df["height"].str.extractall("([a-zA-Z]+)") #取得复合的索引
df["height"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ddxn417

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值