python dataframe实现分层抽样函数

写好三分地

已于 2023-03-30 22:35:33 修改

阅读量961

点赞数

文章标签： python pandas 开发语言

于 2023-03-30 22:32:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42738639/article/details/129868342

版权

实现的逻辑比较简单，只是把dataframe自带的sample函数结合了value_counts()进行了优化，从而实现了分层抽样。

import pandas

#df_data：输入的数据
#stratify：分层参照的标签列名
#proportion：抽样的比例数，默认30%
def stratified_sampling(df_data, stratify, proportion = 0.3):
	vc = df_data[stratify].value_counts()
	sam = pd.DataFrame(columns = df_data.columns.tolist())
	for vi in vc.index:
		dd = df_data[df_data[stratify] == vi].sample(n = round(vc[vi] * proportion))
		sam = pd.concat([sam, dd ], ignore_index = False)
	return sam

写好三分地

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python dataframe实现分层抽样函数

实现的逻辑比较简单，只是把dataframe自带的sample函数结合了value_counts()进行了优化，从而实现了分层抽样。
复制链接

扫一扫

写好三分地 CSDN认证博客专家 CSDN认证企业博客

码龄6年

57: 原创

5万+: 周排名

162万+: 总排名

20万+: 访问

: 等级

2082: 积分

41: 粉丝

104: 获赞

49: 评论

437: 收藏

私信

关注

热门文章

分类专栏

R语言 1篇
服务器 1篇
SQL 5篇
临床 1篇
数据结构 9篇
电脑修复 1篇
python 14篇
matlab 11篇
C# 4篇
word 6篇
私人笔记

最新评论

利用R语言绘制基线资料表table1
善善善其身: 我在导出的时候显示：Error in as.data.frame.default(x[[i]], optional = TRUE) : cannot coerce class ‘"function"’ to a data.frame，怎么回事呢
tensorflow安装过程及问题
li1513476445: pip install -i https://pypi.doubanio.com/simple/ tensorflow==2.0.0 下载不了这2.0.0的版本了？
利用R语言绘制基线资料表table1
Dr___L: 你好，最后做出来的表的效果可以展示一下吗？代码这边没怎么理解先通过图看看
python打包界面程序遇到 cant find package tix问题
压萝卜: 我直接导入了所有tkinter包,然后成功了，多谢。
关于KFold的__init__() got multiple values for argument ‘n_splits‘
憨憨女孩想智慧: 我找了好久，，真的很感谢很感谢您的解答

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。