暑期项目实训个人记录-6

DaybreakFtline

于 2021-07-09 12:34:42 发布

阅读量46

点赞数

本文链接：https://blog.csdn.net/DaybreakFtline/article/details/118604030

版权

异常值处理

import pandas as pd
import matplotlib.pyplot as plt #导入图像库
from sklearn.model_selection import train_test_split


def outlier_processing(df,col):
    s=df[col]
    oneQuoter=s.quantile(0.25)
    threeQuote=s.quantile(0.75)
    irq=threeQuote-oneQuoter
    min=oneQuoter-1.5*irq
    max=threeQuote+1.5*irq
    df=df[df[col]<=max]
    df=df[df[col]>=min]
    return df

if __name__ == '__main__':
    data = pd.read_csv('MissingData.csv')
    # 年龄等于0的异常值进行剔除
    data = data[data['age'] > 0]
    data = data[data['NumberOfTime30-59DaysPastDueNotWorse'] < 90]#剔除异常值
    data['SeriousDlqin2yrs']=1-data['SeriousDlqin2yrs']
    Y = data['SeriousDlqin2yrs']
    X = data.ix[:, 1:]
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)
    # print(Y_train)
    train = pd.concat([Y_train, X_train], axis=1)
    test = pd.concat([Y_test, X_test], axis=1)
    clasTest = test.groupby('SeriousDlqin2yrs')['SeriousDlqin2yrs'].count()
    train.to_csv('TrainData.csv',index=False)
    test.to_csv('TestData.csv',index=False)
    print(train.shape)
    print(test.shape)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DaybreakFtline

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
暑期项目实训个人记录-6

异常值处理import pandas as pdimport matplotlib.pyplot as plt #导入图像库from sklearn.model_selection import train_test_splitdef outlier_processing(df,col): s=df[col] oneQuoter=s.quantile(0.25) threeQuote=s.quantile(0.75) irq=threeQuote-oneQuote
复制链接

扫一扫