【数据挖掘】Python数据分析和挖掘实战--随机打乱DataFrame中的数据（含代码和效果）

最新推荐文章于 2024-06-11 10:39:07 发布

机器不学习我学习

最新推荐文章于 2024-06-11 10:39:07 发布

阅读量1.1k

点赞数 11

分类专栏：资深数据科学家之路文章标签：数据挖掘 python 数据分析

本文链接：https://blog.csdn.net/AugustMe/article/details/139130761

版权

资深数据科学家之路专栏收录该内容

11 篇文章 0 订阅

订阅专栏

写在前面：
首先感谢兄弟们的订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。

路虽远，行则将至；事虽难，做则必成。只要有愚公移山的志气、滴水穿石的毅力，脚踏实地，埋头苦干，积跬步以至千里，就一定能够把宏伟目标变为美好现实。

今天在项目中，需要将pandas读取得到的数据随机打乱，该数据是DataFrame类型，特此记录。

1、方法一

使用sklearn中的shuffle实现数据打乱功能，具体代码如下：

from sklearn.utils import shuffle
import pandas as pd
 
data = {
    "a": [0, 1, 2, 3, 4, 12, 13, 14],
    "b": [2, 4, 5, 6, 4, 15, 16, 17],
    "c": [4, 7, 8, 9,3, 18, 19, 20],
    "d": [55, 1, 2, 3, 4, 12, 133, 14],
    "e": [29, 4, 5, 6, 4, 15, 126, 17],
    "f": [6, 7, 8, 9,3, 18, 149, 260]}

df = pd.DataFrame(data)
print(df)

# 打乱数据
df_new = shuffle(df)
print(df_new)

打印结果：

    a   b   c    d    e    f
0   0   2   4   55   29    6
1   1   4   7    1    4    7
2   2   5   8    2    5    8
3   3   6   9    3    6    9
4   4   4   3    4    4    3
5  12  15  18   12   15   18
6  13  16  19  133  126  149
7  14  17  20   14   17  260
-----------------------------------
    a   b   c    d    e    f
6  13  16  19  133  126  149
4   4   4   3    4    4    3
0   0   2   4   55   29    6
5  12  15  18   12   15   18
1   1   4   7    1    4    7
2   2   5   8    2    5    8
7  14  17  20   14   17  260
3   3   6   9    3    6    9

df里面数据：

在这里插入图片描述
df_new里面数据：

在这里插入图片描述

2、方法二

使用numpy库对数据进行打乱，具体代码如下：

import numpy as np  
import pandas as pd
 
data = {
    "a": [0, 1, 2, 3, 4, 12, 13, 14],
    "b": [2, 4, 5, 6, 4, 15, 16, 17],
    "c": [4, 7, 8, 9,3, 18, 19, 20],
    "d": [55, 1, 2, 3, 4, 12, 133, 14],
    "e": [29, 4, 5, 6, 4, 15, 126, 17],
    "f": [6, 7, 8, 9,3, 18, 149, 260]}

df = pd.DataFrame(data)
print(df)

print("-----------------------------------")

# 打乱DataFrame的索引  
df_new_2 = df.iloc[np.random.permutation(len(df))]  
print(df_new_2)

df_new_2里面的数据：

在这里插入图片描述

3、方法三

使用DataFrame自带的方法，具体代码如下：

import pandas as pd
 
data = {
    "a": [0, 1, 2, 3, 4, 12, 13, 14],
    "b": [2, 4, 5, 6, 4, 15, 16, 17],
    "c": [4, 7, 8, 9,3, 18, 19, 20],
    "d": [55, 1, 2, 3, 4, 12, 133, 14],
    "e": [29, 4, 5, 6, 4, 15, 126, 17],
    "f": [6, 7, 8, 9,3, 18, 149, 260]}

df = pd.DataFrame(data)
print(df)

# 打乱DataFrame的顺序
df_new_3 = df.sample(frac=1)
# df_new_3 = df.sample(frac=1).reset_index(drop=True)
print(df_new_3)