推荐系统小知识(1)——pandas库的pd.merge函数

最新推荐文章于 2023-04-15 10:43:50 发布

lql7595

最新推荐文章于 2023-04-15 10:43:50 发布

阅读量250

点赞数

本文链接：https://blog.csdn.net/lql7595/article/details/104189131

版权

https://blog.csdn.net/brucewong0516/article/details/82707492

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

参数如下：

left: 拼接的左侧DataFrame对象
right：拼接的右侧DataFrame对象
on：要加入的列或索引级别名称。必须在左侧和右侧DataFrame对象中找到。如果未传递且left_index和right_index为False，则DataFrame中的列的交集将被推断为连接键。
left_on:左侧DataFrame中的列或索引级别用作键。可以是列名，索引级名称，也可以是长度等于DataFrame长度的数组。
right_on：右侧DataFrame中的列或索引级别用作键。
left_index：如果为True，则使用左侧DataFrame中的索引（行标签）作为其连接键。对于具有Multilndex（分层）的DataFrame，级别数必须与右侧DataFrame中的连接键数相匹配。
right_index：与left_index相似。
how：有以下模式：‘left’， ‘right’， ‘outer’， ‘inner’。‘inner’是取交集，outer是取并集。sort: 按字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False将在很多情况下显着提高性能。
sort: 按字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False将在很多情况下显着提高性能。
suffixes: 用于重叠列的字符串后缀元组。默认为（‘x’，’ y’）。
copy: 始终从传递的DataFrame对象复制数据（默认为True），即使不需要重建索引也是如此。
indicator:将一列添加到名为_merge的输出DataFrame，其中包含有关每行源的信息。 _merge是分类类型，并且对于其合并键仅出现在“左”DataFrame中的观察值，取得值为left_only，对于其合并键仅出现在“右”DataFrame中的观察值为right_only，并且如果在两者中都找到观察点的合并键，则为left_only。

简而言之：merge用来根据两组数据中相同的一列索引来将两组数据拼接成。left_on和right_on用来选择标准，how选择匹配模式

lql7595

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐系统小知识(1)——pandas库的pd.merge函数

https://blog.csdn.net/brucewong0516/article/details/82707492pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, ...
复制链接

扫一扫