一、数据抽样
抽样的组织形式有:
(1)简单随机抽样:按等概率原则直接从总体中抽取样本。该方法适用于个体分布均匀的场景。
(2)分层抽样:先对总体分组,再从每组中随机抽样。该方法适用于带有分类逻辑属性的数据。
(3)等距抽样:先将总体中的每个个体按顺序编号,计算抽样间隔,然后按照固定间隔抽取个体。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性规律的数据。
(4)整群抽样:将总体分为若干部分,(每个部分称为一群),以群为单位随机抽样,跟其他三种方法的不同在于该方法抽取的是群,而不是数据个体。
#读入数据
1 importnumpy as np2 importpandas as pd3 importrandom4 df=pd.read_csv(r'E:\data analysis\test\test2.csv')5 print(df.head(3))
id var0 var1 var2 var3 var4 var5 var6 var7 var8
0 16144 1 14 13 5 25 5 45 6 1
1 16145 1 15 14 6 26 1 6 7 1
2 16146 1 16 15 7 27 2 1 8
#简单随机抽样
1 df_srs=pd.DataFrame.sample(df,n=20)2 print(df_srs.head(3))3 print(len(df_srs))
id var0 var1 var2 var3 var4 var5 var6 var7 var8
99 17090 1 75 6 19 23 9 2 4 5
30 17021 1 6 5 19 55 16 8 9 2
107 17098 0 1 14 1 31 17 2 12 5
20
#等距抽样
1 sample_count=20
2 df_count=df.shape[0]3 width=df_c