我一直在尝试如何在Python中实现类似于EXCEL的VLOOKUP函数的特性,以便使用一个公共值组合多个数据集。我找到了一个确实有效的方法,但我觉得这不是最好的解决办法。在下面的示例中,为了说明我的问题,我将数据集限制为只有三个,但实际上,我可能有许多数据集import pandas as pd
import numpy as np
time_a = np.arange(0, 10010, 10)
data_a1 = np.random.randint(1500, 2500, 1001)
data_a2 = np.random.randint(750, 1500, 1001)
time_b = np.arange(0, 10005, 5)
data_b1 = np.random.randint(0, 10, 2001)
data_b2 = np.random.randint(0, 20, 2001)
data_b3 = np.random.randint(0, 15, 2001)
time_c = np.arange(0, 10030, 30)
df_a = pd.DataFrame({'time_a': time_a, 'data_a1': data_a1, 'data_a2': data_a2})
df_b = pd.DataFrame({'time_b': time_b, 'data_b1': data_b1, 'data_b2': data_b2, 'data_b3': data_b3})
df_c = pd.DataFrame({'time_c': time_c})
df_a_c = pd.merge_asof(df_c, df_a, left_on=['time_c'], right_on=['time_a'])
df_a_b_c = pd.merge_asof(df_a_c, df_b, left_on=['time_c'], right_on=['time_b'])
为了使其工作,我需要使用pd.merge_asof两次,考虑到我得到了三个数据集(我希望避免)。由于我现在得到了三个相同的时间(time_a,time_b,和{}),因此,也许还可以方便地将其中一个重命名为time并删除另外两个:
^{pr2}$
def vlookup(key, table, column, approximate_match=True):
compare = key.__ge__ if approximate_match else key.__eq__
try:
return max(row for row in table if compare(row[0]))[column]
except ValueError:
return None有可能用,例如,纽比或我必须绕道通过熊猫?在
是否必须多次使用pd.merge_asof组合多个数据集?在
如果我只想选择某些列而不合并整个数据集,那有可能吗?在
在Python中推荐的实践是什么?在
我非常感谢你的帮助。在