python中利用df.iloc()与冒号划分训练集和测试集

 df.iloc函数

通过索引行、列的索引位置[index, columns]来寻找值,如[1]表示第二行的值,[:,1]表示第二列的值,[a,b]表示a行b列,可切片操作。

数据集划分

在使用公开数据集进行训练时,通常需要将一个数据集按一定比例划分为训练集与测试集(有时还需要预测试集),此时需要用iloc函数与冒号一起完成,代码如下:

train_size = int(df.shape[0] * 0.7)
train = df.iloc[:train_size, :]
#取0~train_size行
test = df.iloc[train_size:, :]
#取train_size到最后一行

其中,df.shape[0]为数据集的长度,可见70%的数据被划分为训练集,剩下的30%为测试集合,而df.iloc函数括号内的[:train_size,:]的冒号可以理解为~,冒号前的0和后面的最后一位数被省略,所以逗号前的“:train_size”表示0~train_size行,“train_size:”表示train_size到数据集的最后一行。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值