【python】数据重采样技巧：自定义概率分布采样

MaxeeoveCR

已于 2022-05-06 10:16:09 修改

阅读量1.5k

点赞数

分类专栏：机器学习文章标签： python 概率论机器学习

于 2022-05-06 10:06:02 首次发布

本文链接：https://blog.csdn.net/maxeeovecr/article/details/124603429

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

碎碎念

近期做数据处理的时候准备尝试下根据标签分布构建自定义采样概率来缓解data imbalance问题。
举个例子，比如有一个标签类别
年龄 = {幼年, 青年, 中年, 老年}，某场景下标签分布为 {100, 4000, 8000, 2000}，构建一种自定义采样概率 {0.528, 0.155, 0.122, 0.195}，如何依据这种自定义概率分布进行多次采样呢？

函数

random.choices(population, weights=None, *, cum_weights=None, k=1)

population: Seq(*) 采样元素集群
weights: Seq(int/float) 采样权重分布
注意: 这里weights可以是整形或浮点型，自带归一化后处理。
比如 weights=[100,200,300] 等价于 [100/(100+200+300), …]
cum_weights: Seq(int/float)累计采样权重分布
比如 cum_weights = [0.2, 0.4, 0.6, 0.8, 1.0] 等价于 weights = [0.2, 0.2, 0.2, 0.2 ,0.2]
k: int # 采样次数

举例

import random
# 标签
label_list = ['幼年', '青年', '中年', '老年']
# 自定义概率分布
porb_dist = [0.528, 0.155, 0.122, 0.195]
# 采样次数
sample_num = 10
sample_list = random.choices(label_list, weights=porb_dist, k=sample_num)

采样10次结果

[‘幼年’, ‘老年’, ‘青年’, ‘老年’, ‘中年’, ‘幼年’, ‘青年’, ‘幼年’, ‘幼年’, ‘青年’]

这样可以很方便的依照自己定义的概率分布进行多次采用，简单实用

MaxeeoveCR

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【python】数据重采样技巧：自定义概率分布采样

碎碎念近期做数据处理的时候准备尝试下根据标签分布构建自定义采样概率来缓解data imbalance问题。举个例子，比如有一个标签类别年龄 = {幼年, 青年, 中年, 老年}，某场景下标签分布为 {100, 4000, 8000, 2000}，构建一种自定义采样概率 {0.528, 0.155, 0.122, 0.195}，如何依据这种自定义概率分布进行多次采样呢？函数random.choices(population,weights=None,*,cum_weights=None,k=1)
复制链接

扫一扫