抽样在挖掘中的作用
快速获得数据的基本特征
数据量较大,建模速度较慢
数据不足时
数据平衡
数据分为训练集、验证集、测试集
抽样方法
抽样方法 | 简单随机抽样(SPS) |
分层抽样(STR) | |
系统抽样 | |
多段抽样 | |
简单随机抽样(SPS)
从总体中不加任何分组、分类、排序等,完全随机地抽取调查单位。
-
特点
1)每个样本被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性或排斥性
2)简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小
或数目较少
时,才采用这种方法。 -
局限性
1)当总体单位数量很大
时,就难以实现简单随机抽样,且抽样误差大
分层抽样(STR)
也称为类型抽样。总体分成不同的”层“,然后在每一层内进行抽样。
两种方法:
1)等数分配法
2)等比分配法