PySpark中DataFrame的join操作_pyspark dataframe join-CSDN博客

本文链接：https://blog.csdn.net/weixin_41620184/article/details/135111782

内容导航

类别	内容导航
机器学习	机器学习算法应用场景与评价指标
	机器学习算法—分类
	机器学习算法—回归
	机器学习算法—聚类
	机器学习算法—异常检测
	机器学习算法—时间序列
数据可视化	数据可视化—折线图
	数据可视化—箱线图
	数据可视化—柱状图
	数据可视化—饼图、环形图、雷达图
统计学检验	箱线图筛选异常值
	3 Sigma原则筛选离群值
	Python统计学检验
大数据	PySpark大数据处理详细教程
使用教程	CentOS服务器搭建Miniconda环境
	Linux服务器配置免密SSH
	大数据集群缓存清理
面试题整理	面试题—机器学习算法
	面试题—推荐系统

在这里插入图片描述

在 PySpark 中，您可以使用 join 方法来合并两个 DataFrame。这与 SQL 中的 JOIN 操作类似，允许您根据共同的列或表达式合并数据。以下是一些常见的 join 用法示例：

基本语法

df_result = df1.join(df2, on=joinExpression, how=joinType)
df1 和 df2 是要进行合并的两个 DataFrame。
on 参数是一个字符串（单列名）或一个列表（多列名）或一个表达式，指定了合并的基准。
how 参数指定了 JOIN 的类型。常见的类型有 "inner", "outer", "left_outer", "right_outer", "leftsemi"。

内连接（Inner Join）:

只保留两个 DataFrame 中匹配的行。

df_result = df1.join(df2, df1["id"] == df2["id"], "inner")

左外连接（Left Outer Join）:

包含左边 DataFrame 的所有行，以及与右边 DataFrame 匹配的行。

df_result = df1.join(df2, df1["id"] == df2["id"], "left_outer")

右外连接（Right Outer Join）:

包含右边 DataFrame 的所有行，以及与左边 DataFrame 匹配的行。

df_result = df1.join(df2, df1["id"] == df2["id"], "right_outer")

全外连接（Full Outer Join）:

包含两个 DataFrame 中所有行。

df_result = df1.join(df2, df1["id"] == df2["id"], "outer")

交叉连接（Cross Join）:

返回两个 DataFrame 的笛卡尔积。

df_result = df1.crossJoin(df2)

注意事项

在进行 JOIN 操作时，如果两个 DataFrame 有相同的列名，可能需要使用别名（alias）来避免列名冲突。
JOIN 操作可能会导致性能问题，特别是在处理大型数据集时。合理的选择 JOIN 类型和优化 JOIN 条件是很重要的。
确保您已经正确安装并配置了 PySpark 环境，因为这些代码需要在 PySpark 的上下文中运行。