关于在使用sparksql写程序是报错以及解决方案：org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found,

最新推荐文章于 2024-06-01 17:13:38 发布

小小的_我

最新推荐文章于 2024-06-01 17:13:38 发布

阅读量6.9k

点赞数 1

val conf = new SparkConf().setMaster("local[2]").setAppName("Load_Data")
 val sc = new SparkContext(conf)
 val ssc = new sql.SparkSession.Builder()
    .appName("Load_Data_01")
    .master("local[2]")
    .getOrCreate()
 sc.setLogLevel("error") //测试环境为了少打印点日志，我将日志级别设置为error
val df_emp = ssc.read.json("file:///E:\\javaBD\\BD\\json_file\\employee.json")
val df_dept = ssc.read.format("json").load("file:///E:\\javaBD\\BD\\json_file\\department.json")
df_emp.join(df_dept,df_emp("depId") === df_dept("id"),"left").show()
这样结果也可以正常打印出来了，貌似是没有什么问题了，接下来直接就save就可以了呗，但是进行save的时候就报错了：
df_emp.join(df_dept,df_emp("depId") === df_dept("id"),"left").write.mode(SaveMode.Append).csv("file:///E:\\javaBD\\BD\\json_file\\rs")

要保存的表中有相同的name字段，这样是不行的，那么解决方案就很明显了，让两个那么字段名称不相同么，那就分别给他们其别名呗，接下来开始修改代码：

//分别拿出两张表的列名
val c_emp = df_emp.columns
val c_dept = df_dept.columns
//分别对两张表的别名进行设置
val emp = df_emp.select(c_emp.map(n => df_emp(n).as("emp_" + n)): _*)
val dept = df_dept.select(c_dept.map(n => df_dept(n).as("dept_" + n)): _*)
　　4、接着在进行保存，程序报错消失：
emp.join(dept,emp("emp_depId") === dept("dept_id"),"left").write.mode(SaveMode.Append).csv("file:///E:\\javaBD\\BD\\json_file\\rs")