python 字典元素替换_Python-通过字典有效替换熊猫系列中的值

小编典典

一个简单的解决方案是选择一种方法,该方法取决于对字典键完全覆盖值的估计。

一般情况

df[‘A’].map(d)如果所有值都已映射,则使用;否则 要么

df[‘A’].map(d).fillna(df[‘A’]).astype(int)如果映射的值大于5%,则使用。

d中的值很少,例如<5%

采用 df['A'].replace(d)

〜5%的“交叉点”特定于以下基准测试。

有趣的是,map在任何一种情况下,简单的列表理解通常都表现不佳。

标杆管理

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})

lst = df['A'].values.tolist()

##### TEST 1 - Full Map #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d) # 1.98s

%timeit df['A'].map(d) # 84.3ms

%timeit [d[i] for i in lst] # 134ms

##### TEST 2 - Partial Map #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d) # 20.1ms

%timeit df['A'].map(d).fillna(df['A']).astype(int) # 111ms

%timeit [d.get(i, i) for i in lst] # 243ms

说明

之所以s.replace这么慢,是因为它所做的不仅仅是映射字典。它处理一些极端情况和可能很少见的情况,这些情况通常在任何情况下都应格外小心。

这是replace()in的摘录pandas\generic.py。

items = list(compat.iteritems(to_replace))

keys, values = zip(*items)

are_mappings = [is_dict_like(v) for v in values]

if any(are_mappings):

# handling of nested dictionaries

else:

to_replace, value = keys, values

return self.replace(to_replace, value, inplace=inplace,

limit=limit, regex=regex)

似乎涉及许多步骤:

将字典转换为列表。

遍历列表并检查嵌套字典。

将键和值的迭代器输入到替换函数中。

可以将其与来自map()中的更精简的代码进行比较pandas\series.py:

if isinstance(arg, (dict, Series)):

if isinstance(arg, dict):

arg = self._constructor(arg, index=arg.keys())

indexer = arg.index.get_indexer(values)

new_values = algos.take_1d(arg._values, indexer)

2020-02-15

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值