对DataFrame数据进行截断

当有确定截断值时

譬如最小值为0,或者最大值为1这种情况

# 设定df的最小值为0
cutoff_value = 0
newDF = df.clip(lower=cutoff_value)

# 设定df的最大值为1
cutoff_value = 1
newDF = df.clip(upper=cutoff_value)

经过这么操作就能分别设定df的最小值或最大值,并按照对应的上下限进行截断。

当截断值不确定时

通过分位函数进行截断

# 按照第3四分位数进行截断
p = 0.75
cutoff_value = df.quantile(p)
newDF = df.clip(lower=cutoff_value)

其中,p其实可以在0~1之间任意选取。所谓的四分位说白了就是把原始数据排序后从小到大均匀划分成四段,而所谓的第3四分位数就是取排序后的数据中75%位置的那个值,又称为较大四分位数。其实如果你喜欢设置成80%或者90%都可以,具体看实际数据决定。

当df各列需要不同的截断值时

在实际应用中df中的各列可能会拥有不同的值域,如果想分别对各列进行截断时仅需在截断时指定操作维度即可:

# 按照每列的第3四分位数进行截断
p = 0.75
cutoff_value = df.quantile(p, axis=0)
newDF = df.clip(lower=cutoff_value, axis=1)

注:
df.quantile(p, axis=0)中,axis=0指的是在所有行(样本)中进行排序随后找分位数。

而df.clip(lower=cutoff_value, axis=1)中的axis=1表示在所有的列(特征)中,按照cutoff_value中的值进行截断。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值