19_Pandas随机抽取行和列的样本(sample)

19_Pandas随机抽取行和列的样本(sample)

在检查具有许多行的pandas.DataFrame,pandas.Series的数据时,使用sample()方法随机抽取行或列(随机抽样)很方便。

还有其他方法可用于检查pandas.DataFrame和pandas.Series数据,head()和tail(),它们会返回第一行和最后一行。
请参见以下文章。

将描述以下内容。

  • sample()的默认行为
  • 指定要提取的行数和列数:参数n
  • 指定要提取的行和列的比例:参数frac
  • 固定随机:参数random_state
  • 允许重复:参数replace
  • 指定行/列:参数axis

使用seaborn中的iris数据集作为样本。

import pandas as pd
import seaborn as sns

df = sns.load_dataset("iris")
print(df.shape)
# (150, 5)

sample()的默认行为

如果未提供任何参数,则将随机返回一行。

print(df.sample())
#      sepal_length  sepal_width  petal_length  petal_width    species
# 108           6.7          2.5           5.8          1.8  virginica

指定要提取的行数和列数:参数n

可以使用参数n指定要提取的行数和列数。

print(df.sample(n=3))
#     sepal_length  sepal_width  petal_length  petal_width     species
# 3            4.6          3.1           1.5          0.2      setosa
# 1            4.9          3.0           1.4          0.2      setosa
# 96           5.7          2.9           4.2          1.3  versicolor

指定要提取的行和列的比例:参数frac

可以使用参数frac指定要提取的行和列的比率。 1是100%。不能同时指定n和frac。

print(df.sample(frac=0.04))
#      sepal_length  sepal_width  petal_length  petal_width     species
# 119           6.0          2.2           5.0          1.5   virginica
# 97            6.2          2.9           4.3          1.3  versicolor
# 46            5.1          3.8           1.6          0.2      setosa
# 137           6.4          3.1           5.5          1.8   virginica
# 56            6.3          3.3           4.7          1.6  versicolor
# 62            6.0          2.2           4.0          1.0  versicolor

固定随机:参数random_state

可以使用参数random_state指定随机数。随机数是固定的,因此总是返回相同的行和列。

print(df.sample(n=3, random_state=0))
#      sepal_length  sepal_width  petal_length  petal_width     species
# 114           5.8          2.8           5.1          2.4   virginica
# 62            6.0          2.2           4.0          1.0  versicolor
# 33            5.5          4.2           1.4          0.2      setosa

允许重复:参数replace

如果参数replace设置为True,则允许重复的行/列。默认值为False。

如果replace = True,则可以指定比原始行和列数更多的采样数。

print(df.head(3).sample(n=3, replace=True))
#    sepal_length  sepal_width  petal_length  petal_width species
# 2           4.7          3.2           1.3          0.2  setosa
# 1           4.9          3.0           1.4          0.2  setosa
# 1           4.9          3.0           1.4          0.2  setosa

print(df.head(3).sample(n=5, replace=True))
#    sepal_length  sepal_width  petal_length  petal_width species
# 1           4.9          3.0           1.4          0.2  setosa
# 0           5.1          3.5           1.4          0.2  setosa
# 1           4.9          3.0           1.4          0.2  setosa
# 0           5.1          3.5           1.4          0.2  setosa
# 0           5.1          3.5           1.4          0.2  setosa

指定行/列:参数axis

如果参数轴为1,则可以随机提取列。与到目前为止的示例一样,默认值为0(行)。

print(df.head().sample(n=2, axis=1))
#    sepal_width species
# 0          3.5  setosa
# 1          3.0  setosa
# 2          3.2  setosa
# 3          3.1  setosa
# 4          3.6  setosa
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用pandas读取指定行和列,可以使用iloc和loc两个方法。 使用iloc方法,可以通过指定行和列的索引位置来读取数据。例如,要读取第一行的数据,可以使用df.iloc\[0\]。要读取前三行的数据,可以使用df.iloc\[:3\]。要读取第一列的数据,可以使用df.iloc\[:, 0\]。要读取前两列的数据,可以使用df.iloc\[:, :2\]。\[1\] 使用loc方法,可以通过指定行和列的标签来读取数据。例如,要读取从'viper'到'sidewinder'行的数据,可以使用df.loc\['viper':'sidewinder'\]。要读取'viper'行的'shield'列的数据,可以使用df.loc\['viper', 'shield'\]。\[3\] 需要注意的是,在使用切片时,需要使用label进行切片,否则pandas不会识别。\[3\] 另外,如果要读取特定的行数,可以使用nrows参数来限制读取的行数。例如,要读取前十五行的数据,可以使用df = pd.read_csv("路径\文件名称", nrows=15)。如果要忽略前几行,可以使用skiprows参数来指定需要忽略的行数。例如,要忽略前9行,往下读5行,可以使用df = pd.read_csv("路径\文件名称", skiprows=9, nrows=5)。\[2\] 综上所述,以上是使用pandas读取指定行和列的方法。 #### 引用[.reference_title] - *1* *2* [pandas读取指定行/列的几种操作](https://blog.csdn.net/bianxia123456/article/details/111396760)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [pandas获取对应的行或者列](https://blog.csdn.net/qq_29983883/article/details/116085230)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值