Pyspark连接两个dataframe，横向连接，（可能是中文互联网上首个正确方法）

最新推荐文章于 2023-12-20 16:36:13 发布

JoJodar

最新推荐文章于 2023-12-20 16:36:13 发布

阅读量4k

点赞数 14

分类专栏：问题出现我就告诉大家

本文链接：https://blog.csdn.net/weixin_38906796/article/details/111388655

版权

问题出现我就告诉大家专栏收录该内容

4 篇文章

订阅专栏

简单的问题，横向连接两个df，如下图所示。

pyspark中没有类似padas中的pd.concat([df1,df2],axis='columns')用以连接两个df，中文搜索半天都是些文不对题的答案，还是得科学搜索，墙外出真知。特此记录解决办法：

from pyspark.sql.functions import monotonically_increasing_id as mi
id=mi()
df1 = df1.withColumn("match_id", id)
cont_data = cont_data.withColumn("match_id", id)
cont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner').drop(df1.match_id)

pyspark只能用join方法横向连接，因此需要构造一个临时的相同列使用。构造完之后丢弃即可。