Spark1.x升级Spark2.x常见异常【map】

最新推荐文章于 2022-06-16 23:39:42 发布

神之凝视

最新推荐文章于 2022-06-16 23:39:42 发布

阅读量538

点赞数

分类专栏： Spark 大数据文章标签： spark

本文链接：https://blog.csdn.net/qq_27600723/article/details/106221452

版权

本文介绍了Spark1.x到Spark2.x升级过程中遇到的常见问题，特别是关于map操作的异常。主要原因是Spark2.x中map操作会将DataFrame转换为Dataset，需要Encoder支持。文章通过示例详细分析了使用Row、java数据类型时出现的错误，并提供了两种解决方案：指定Encoder或转换为RDD。最后，作者提醒读者不同解决方案的权衡，指出转换为RDD可能会影响Spark2.x的使用风格。

摘要由CSDN通过智能技术生成

一.创建Spark入口

相较于Spark1.x，Spark2.x最明显的区别就是程序执行入口的区别了，从SparkContext变为SparkSession。相较于SparkContext，SparkSession对SparkContext进行了二次封装，把原有Spark1.x中的SQLContext和HiveContext进行了合并，默认为SQLContext，当需要访问Hive时，只需开启对Hive的支持即可【.enableHiveSupport()，当然hive的相关配置还是要设置的】，如下：

    val spark = SparkSession
      .builder
      .appName(s"${this.getClass.getSimpleName}")
      .master("local[2]")
      .getOrCreate()

二.创建DataFrame数据集

在Spark2.x中，获取数据集的方式和Spark1.x非常类似，只需从结构化数据源直接加载或从非结构化数据源转换即可，如下：

    // 数据集直接的转换
    import spark.implicits._

    val technology = spark.sparkContext
      .textFile("D:\\software\\spark-2.4.4\\data\\sql\\dataframe.txt")
      .map(_.split(","))
      .map(row => Technology(row(0), row