python调用随机分层抽样方法_如何使用Python进行随机分层抽样（不是训练/测试分割）？...

最新推荐文章于 2023-05-03 18:27:29 发布

weixin_39750410

最新推荐文章于 2023-05-03 18:27:29 发布

阅读量340

点赞数

文章标签： python调用随机分层抽样方法

这是我目前为止最好的解决方案。重要的是，在每个地层之前对连续变量进行分类，并使观测值最少。在

在本例中，我是：产生人口

纯随机抽样

随机分层抽样

当比较两个样本时，分层样本更能代表总体人口。在

如果任何人有一个更好的方法，请随时分享。在import pandas as pd

import numpy as np

# Generate random population (100K)

population = pd.DataFrame(index=range(0,100000))

population['income'] = 0

population['income'].iloc[39000:80000] = 1

population['income'].iloc[80000:] = 2

population['sex'] = np.random.randint(0,2,100000)

population['age'] = np.random.randint(0,4,100000)

pop_count = population.groupby(['income', 'sex', 'age'])['income'].count()

# Random sampling (100 observations out of 100k)

random_sample = population.iloc[

np.random.randint(

len(population),

int(len(population) / 1000)

)

]

# Random Stratified Sampling (100 observations out of 100k)

stratified_sample = list(map(lambda x : population[

(

population['income'] == pop_count.index[x][0]

)

(

population['sex'] == pop_count.index[x][1]

)

(

population['age'] == pop_count.index[x][2]

)

].sample(frac=0.001), range(len(pop_count))))

stratified_sample = pd.concat(stratified_sample)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39750410

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python机器学习零基础理解随机森林算法

Mr数据杨

01-24

3万+

大家好，我是Mr数据杨。今天，我想让大家跟我一起回到历史的烟云之中，探索“随机森林”的奥秘，其实，这与三国演义中的一段经历颇有相似之处。记得那时曹操曾经在建邺遇到了大问题，他需要找出敌人刘备的真正意图。这就如同在大数据中找寻答案，需要用随机森林这一工具理解并预测未来。这如同曹操手下的谋士郭嘉，用他的聪明才智，协助曹操一步步揭示真相。

python实现的分层随机抽样案例

09-17

主要介绍了python实现的分层随机抽样案例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

参与评论您还未登录，请先登录后发表或查看评论

python调用随机分层抽样方法_每组python 1：1分层抽样

weixin_39986741的博客

12-05

181

How can a 1:1 stratified sampling be performed in python?Assume the Pandas Dataframe df to be heavily imbalanced. It contains a binary group and multiple columns of categorical sub groups.df = pd.Data...

python实现分层随机抽样算法_【机器学习算法-python实现】採样算法的简单实现...

weixin_39609483的博客

12-11

736

一、单纯随机抽样(simple random sampling)将调查整体所有观察单位编号，再用抽签法或随机数字表随机抽取部分观察单位组成样本。长处：操作简单，均数、率及对应的标准误计算简单。缺点：整体较大时，难以一一编号。二、系统抽样(systematic sampling)又称机械抽样、等距抽样，即先将整体的观察单位按某一顺序号分成n个部分，再从第一部分随机抽取第k号观察单位。依次用相等间距，...

python数据分类案例_python使用pandas抽样训练数据中某个类别实例

weixin_39636608的博客

12-06

434

废话真的一句也不想多说，直接看代码吧！# -*- coding: utf-8 -*-import numpyfrom sklearn import metricsfrom sklearn.svm import LinearSVCfrom sklearn.naive_bayes import MultinomialNBfrom sklearn import linear_modelfrom skle...

python分层抽样

qq_45759229的博客

09-26

4927

import pandas as pd import numpy as np import random df_credit = pd.read_csv("./train.csv") print(df_credit["Credit Default"].value_counts()) n_sample=1000 print(pd.__version__) aa=df_credit.groupby('Credit Default').sample(n=n_sample,replace=True) ## 这个是

python随机抽取样本_python 机器学习之随机抽样-分层抽样

weixin_39637151的博客

01-12

1950

在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”。python有现成的模块，完整代码如下：import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_split# 随机...

python参数寻优_Libsvm网格参数寻优教程

weixin_28717939的博客

01-14

1687

首先下载Libsvm、Python和Gnuplot：l libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm (我自己用2.86版本)l python的主页http://www.python.org下载 python (我自己用2.5版本)l gnuplot的主页http://www....

利用Python进行数据分析笔记－数据加工(分组、聚合及分组应用)

wuzlun的专栏

05-11

3330

%matplotlib inline import matplotlib.pyplot as plt import numpy as np import pandas as pd # 数据汇总和组操作 ### 1、GroupBy Mechanics（分组机制） Hadley Wickham，是很多R语言有名库的作者，他描述group operation(组操作)为s...

机器学习中决策树的随机森林_决策树和随机森林在机器学习中的使用

weixin_26746401的博客

08-22

6429

机器学习中决策树的随机森林机器学习 (Machine Learning) Machine learning is an application of artificial intelligence that provides systems the ability to automatically learn and improve from experience without being e...

《利用python进行数据分析》读书笔记

老兵Coding

06-15

3124

《利用python进行数据分析》是一本利用python的Numpy、Pandas、Matplotlib库进行数据分析的基础介绍，非常适合初学者。重要的python库 NumPy http://numpy.org Pandas http://pandas.pydata.org matplotlib http://matplotlib.org IPython 和 Jupyter http://ipython.org http://jupyter.org Scipy http://scipy.org sci

python实现分层随机抽样算法_python分层随机抽样

weixin_33609654的博客

01-29

1099

Python 由于Spark开源版本升级，为避免出现API兼容性或可靠性问题，建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类： pyspark.SparkContext：是Spark的对外接口。负责向调用该类的python应用提供SPython 由于Spark开源版本升级，为避免出现API兼容性或可靠性问题，建议用户使用配套版本的开源API。 Spa...

python实现的分层随机抽样