当有确定截断值时
譬如最小值为0,或者最大值为1这种情况
# 设定df的最小值为0
cutoff_value = 0
newDF = df.clip(lower=cutoff_value)
# 设定df的最大值为1
cutoff_value = 1
newDF = df.clip(upper=cutoff_value)
经过这么操作就能分别设定df的最小值或最大值,并按照对应的上下限进行截断。
当截断值不确定时
通过分位函数进行截断
# 按照第3四分位数进行截断
p = 0.75
cutoff_value = df.quantile(p)
newDF = df.clip(lower=cutoff_value)
其中,p其实可以在0~1之间任意选取。所谓的四分位说白了就是把原始数据排序后从小到大均匀划分成四段,而所谓的第3四分位数就是取排序后的数据中75%位置的那个值,又称为较大四分位数。其实如果你喜欢设置成80%或者90%都可以,具体看实际数据决定。
当df各列需要不同的截断值时
在实际应用中df中的各列可能会拥有不同的值域,如果想分别对各列进行截断时仅需在截断时指定操作维度即可:
# 按照每列的第3四分位数进行截断
p = 0.75
cutoff_value = df.quantile(p, axis=0)
newDF = df.clip(lower=cutoff_value, axis=1)
注:
df.quantile(p, axis=0)中,axis=0指的是在所有行(样本)中进行排序随后找分位数。
而df.clip(lower=cutoff_value, axis=1)中的axis=1表示在所有的列(特征)中,按照cutoff_value中的值进行截断。