我有两个数据帧,我需要合并基于一列(员工代码)。请注意,dataframe大约有75列,所以我提供了一个示例数据集来获取一些建议/示例解决方案。我使用的是databricks,数据集是从S3读取的。在
以下是我的两个数据帧:DATAFRAME - 1
|-----------------------------------------------------------------------------------|
|EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9|
|-----------------------------------------------------------------------------------|
|A10001 | B | | | | | | | | |
|-----------------------------------------------------------------------------------|
DATAFRAME - 2
|-----------------------------------------------------------------------------------|
|EMP_CODE |COLUMN1|COLUMN2|COLUMN3|COLUMN4|COLUMN5|COLUMN6|COLUMN7|COLUMN8|COLUMN9|
|-----------------------------------------------------------------------------------|
|A10001 | | | | | C | | | | |
|B10001 | | | | | | | | |T2 |
|A10001 | | | | | | | | B | |
|A10001 | | | C | | | | | | |
|C10001 | | | | | | C | | | |
|-----------------------------------------------------------------------------------|
我需要合并基于EMP_代码的2个数据帧,基本上根据EMP_代码将dataframe1与dataframe2连接起来。当我做连接时,我得到了重复的列,我正在寻找一些帮助。在
预期的最终数据帧:
^{pr2}$
dataframe1中有3行emp_代码A10001,dataframe2中有1行。所有数据都应该合并为一条记录,没有任何重复的列。在
多谢了