我有两个数据帧,每个数据帧有不同的行数。下面是每个数据集的几行df1 =
Company City State ZIP
FREDDIE LEES AMERICAN GOURMET SAUCE St. Louis MO 63101
CITYARCHRIVER 2015 FOUNDATION St. Louis MO 63102
GLAXOSMITHKLINE CONSUMER HEALTHCARE St. Louis MO 63102
LACKEY SHEET METAL St. Louis MO 63102
以及df2 =
FDA Company FDA City FDA State FDA ZIP
LACKEY SHEET METAL St. Louis MO 63102
PRIMUS STERILIZER COMPANY LLC Great Bend KS 67530
HELGET GAS PRODUCTS INC Omaha NE 68127
ORTHOQUEST LLC La Vista NE 68128
我用combined_data = pandas.concat([df1, df2], axis = 1)把它们连在一起。我的下一个目标是使用来自fuzzy wuzzy模块的几个不同的匹配命令将df1['Company']下的每个字符串与df2['FDA Company']下的每个字符串进行比较,并返回最佳匹配的值及其名称。我想把它放在一个新的专栏里。例如,如果我对df1['Company']中的LACKY SHEET METAL执行fuzz.ratio和fuzz.token_sort_ratio操作,则返回的最佳匹配是LACKY SHEET METAL,得分为100,然后将其保存在combined data中的新