df.iloc函数
通过索引行、列的索引位置[index, columns]来寻找值,如[1]表示第二行的值,[:,1]表示第二列的值,[a,b]表示a行b列,可切片操作。
数据集划分
在使用公开数据集进行训练时,通常需要将一个数据集按一定比例划分为训练集与测试集(有时还需要预测试集),此时需要用iloc函数与冒号一起完成,代码如下:
train_size = int(df.shape[0] * 0.7)
train = df.iloc[:train_size, :]
#取0~train_size行
test = df.iloc[train_size:, :]
#取train_size到最后一行
其中,df.shape[0]为数据集的长度,可见70%的数据被划分为训练集,剩下的30%为测试集合,而df.iloc函数括号内的[:train_size,:]的冒号可以理解为~,冒号前的0和后面的最后一位数被省略,所以逗号前的“:train_size”表示0~train_size行,“train_size:”表示train_size到数据集的最后一行。