pandas 数据规整化 —— 合并、清理与转换

最新推荐文章于 2022-11-29 19:44:12 发布

五道口纳什

最新推荐文章于 2022-11-29 19:44:12 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/lanchunhui/article/details/53208533

版权

日期处理：
- pd.to_datetime()

df.reset_index()：增加属性名为 index 的属性列

>> data = [[1,2,3],[4,5,6]]
>> df = pd.DataFrame(data)
>> df.index
RangeIndex(start=0, stop=2, step=1)
>> df.columns
RangeIndex(start=0, stop=3, step=1)

>> df.reset_index()
   index  0  1  2
0      0  1  2  3
1      1  4  5  6

0. 基本处理

修改列名：df.rename({'old_col_name': 'new_col_name'}, inplace=True)

1. 清理

pd.isnull()/pd.notnull()：用于检测缺失数据；
drop(labels, axis=0, level=None, inplace=False, errors=‘raise’)
- 注意第一个参数（labels）与第二个参数（axis）的关系，要删除的 labels 必须在 axis 上；
  - 也即默认情况下，axis=0，为纵轴（也即第一列，行名），axis=1，则为横轴（第一行，为行名）

2. 合并（merge）

>> df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   a      5
6   b      6
>> df2 = pd.DataFrame({'key':['a', 'b', 'd', 'a'], 'data2': range(4)})
  key  data2
0   a      0
1   b      1
2   d      2
3   a      3

数据集的合并（merge）或链接（join）运算可通过一个或多个键将行连接起来。如果不显式地指定，merge 会默认将重叠列的列名作键。

>> pd.merge(df1, df2, on='key')
			# 等价于 pd.merge(df1, df2)
  key  data1  data2
0   b     0      1
1   b     1      1
2   b     6      1
3   a     2      0
4   a     2      3
5   a     4      0
6   a     4      3
7   a     5      0
8   a     5      3

注意：

默认连接方式为：inner（how='inner'），也即
- df1 中的 c，df2 中的 d均未出现在 merge 后的 df 中；
- 对于 b，df2是一对一的关系；对于 a，df2中一对2，最终拼接的形式是笛卡尔积的形式；

此外还有 right/left/outer（外链接取的是键的并集，组合了左连接和右连接的效果：

>> pd.merge(df1, df2, on='key', how='left')

  key  data1  data2
0   b      0    1.0
1   b      1    1.0
2   a      2    0.0
3   a      2    3.0
4   c      3    NaN
5   a      4    0.0
6   a      4    3.0
7   a      5    0.0
8   a      5    3.0
9   b      6    1.0