pandas DataFrame按比例随机采样以达到拆分数据集的作用

最新推荐文章于 2024-05-22 22:20:41 发布

lerry_lca

最新推荐文章于 2024-05-22 22:20:41 发布

阅读量1.4w

点赞数 28

分类专栏：机器学习与深度学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_33187136/article/details/105413899

版权

12 篇文章 0 订阅

订阅专栏

1. 创建/加载数据集

data = {
        '水果':['苹果','梨','草莓','香蕉','西瓜'],
        '价格':[2,6,1,8,3]
       }
df=pd.DataFrame(data)
df

df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index()：打乱数据之后index也是乱的，如果你的index没有特征意义的话，直接重置就可以了，否则就在打乱之前把index加进新的一列，再生成无意义的index

df1=df.sample(frac=0.6)#按0.6比例随机采样
df1

isin表示df中index和df1重复的行，~表示取反，即不重复的，相当于按行索引取差集

df2=df[~df.index.isin(df1.index)]

df2

	水果	价格
0	苹果	2
3	香蕉	8

如果需要重置行索引，使用df = df.reset_index(drop=True)
默认值是False
如果drop=False，会使原来的index变成新的数据列保留。
如果不想保留原来的index，直接使用重置后的索引，使用drop=True

df

df1

df2

	水果	价格
0	苹果	2
3	香蕉	8

关注