分层抽样,即先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本。
分层抽样能明显的降低抽样误差,并且便于针对不同类别的数据样本进行单独研究,因此是一种较好的实现方法。
该方法适用于带有分类逻辑的属性、标签等特征的数据
有数据如下:
最后一列为分类标签,用0或者1来表示
导入包
import numpy as np
import random
读取数据,并查看分类标签
data2 = np.loadtxt('data_preprocessing_data2.txt') # 导入带有分层逻辑的数据
each_sample_count =<