随机打乱数据框DataFrame中行的顺序

数据框(DataFrame)是pandas中一种重要的数据结构,你可以将其想象为一个关系型数据表格,其中包含多个行和已命名的列。可以通过字典的方式创建DataFrame,示例代码如下:

import pandas as pd

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })

我们打印cities,可以看到DataFrame的内容如下:

print(citys)
       City name  Population
0  San Francisco      852469
1       San Jose     1015785
2     Sacramento      485199

下面进入本次介绍的主要内容。DataFrame有一个属性被称为index,该属性会向DataFrame的每一行赋一个标识符值。默认情况下,在构造DataFrame时,pandas会赋给每一行0,1,2,3··· 这样的索引值。而且索引值在创建后是稳定的,也就是说,它们不会因为数据重新排序而发生改变。

通过上面一番解释,我们就会明白索引值与相应行的内容在一开始就绑定好了,所以我们要想随机对行进行排序,只需要打乱索引值的顺序即可。我们可以这样做:

cities.reindex([2, 0, 1])

通过DataFrame的reindex方法实现改变行的排序。但是通过这种方法只能实现特定方式的排序,并不能任意打乱,要实现随机任意排序,还需要借助numpy中的 random.permutation 函数。

import numpy as np

cities.reindex(np.random.permutation(cities.index))

最后还需要注意一点,通过上面的命令只是输出了乱序之后的中间数据框,并非cities本身,要实现彻底改变cities本身的行排序,不要忘记还需要将乱序后的中间DataFrame赋值给cities,如下:

cities = cities.reindex(np.random.permutation(cities.index))

 

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值