PYTHON 训练集与测试集切分

本文介绍如何使用sklearn库对原始数据`data_df`进行7:3的训练集和测试集划分,以`SeriousDlqin2yrs`为目标变量。通过train_test_split函数实现数据拆分,并返回各部分数据对象。
摘要由CSDN通过智能技术生成

通常,我们在建模之前会对原始数据进行切分,现对该方法进行打包。

#数据切分, 按照7:3切分训练集与测试集
    
##  data_df:原始数据
##  object_col:目标变量

def data_split(data_df , object_col):
    from sklearn.model_selection import train_test_split    
    Y = data_df[object_col]
    X = data_df.drop(object_col , axis = 1)
    #测试集占比30%
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=0)
    # print(Y_train)
    train = pd.concat([Y_train, X_train], axis=1)
    test = pd.concat([Y_test, X_test], axis=1)
    return X_train, X_test, Y_train, Y_test
if __name__ == '__main__':
    import pandas as pd
    import numpy as np
    data = pd.read_csv('data/cs-training.csv')
     ##  切分训练集、测试集
    X_train, X_test, Y_train, Y_test  = data_split(data , 'SeriousDlqin2yrs')
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值