python随机选取数据算法

python随机选取数据算法:

  1. 使用sample方法
    pandas的sample方法是最常用的方法来随机选取DataFrame中的数据。可以通过设置frac参数来指定选取的比例。
    代码:
import pandas as pd

# 创建一个示例DataFrame
data = {
    'A': range(1, 101),
    'B': range(101, 201)
}
df = pd.DataFrame(data)

# 随机选取10%的数据
sampled_df = df.sample(frac=0.1, random_state=1)
print(sampled_df)

pandas.DataFrame.sample:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)

2、使用numpy的随机选择【可以生成随机索引,然后选择相应的行】
代码:

import numpy as np

# 计算要选取的行数
num_samples = int(len(df) * 0.1)

# 随机选择行索引
random_indices = np.random.choice(df.index, size=num_samples, replace=False)

# 根据随机索引选择数据
sampled_df = df.loc[random_indices]
print(sampled_df)

3、使用sklearn的train_test_split

from sklearn.model_selection import train_test_split

# 随机选取10%的数据
sampled_df, _ = train_test_split(df, test_size=0.9, random_state=1)
print(sampled_df)

4、使用random模块

import random

# 计算要选取的行数
num_samples = int(len(df) * 0.1)

# 随机选择行索引
random_indices = random.sample(range(len(df)), num_samples)

# 根据随机索引选择数据
sampled_df = df.iloc[random_indices]
print(sampled_df)

总结:
以上方法都可以有效地从DataFrame中随机选取数据。最常用的是pandas的sample方法,因为它简单直观,且功能强大。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值