我们在使用df.values.tolist()处理数据时候,处理的结果可能会是列表中包含列表,也有可能会是普通的列表:
- 当你使用 dfi[‘id’] 来选择单列时,返回的是一个 Pandas Series 对象,然后转换为 NumPy 数组,再转换为普通 Python 列表。
- 当你提取多列或整个 DataFrame,然后将其转换为列表时,返回的是一个列表的列表,因为 DataFrame 的结构是二维的。
flatten()和二维的数据结构紧密联系,data_list = df.values.flatten().tolist()
flatten():
data_list.values.flatten() 将二维的NumPy数组展平为一维数组。展平操作将所有元素按行顺序排列成一个一维数组。
例如,array([[a, b, c], [d, e, f]]) 变成 array([a, b, c, d, e, f])。
.tolist():
data_list.values.flatten().tolist() 将展平的一维NumPy数组转换为Python列表。
最终得到的是一个一维的Python列表,形如 [a, b, c, d, e, f]。
关键在于 DataFrame 和 Series 的结构差异。DataFrame 是二维的(行和列),Series 是一维的(只有一列数据)。