取出RDD中每一个字段的值，利用DataFrame.collect()方法实现数据的筛选存储

最新推荐文章于 2024-06-28 19:40:35 发布

「已注销」

最新推荐文章于 2024-06-28 19:40:35 发布

阅读量2.9k

点赞数 1

分类专栏： Spark基础学习文章标签： spark hive

本文链接：https://blog.csdn.net/curry10086/article/details/106606404

版权

这篇博客介绍了作者在大数据开发项目中，如何结合HDFS、Spark和Hive处理学生成绩数据。通过编写代码，筛选出成绩大于60的学生信息，并将这些信息存储到Hive的数据库表中。代码中使用了DataFrame的collect()方法，但考虑到其资源消耗，作者计划进行优化。

摘要由CSDN通过智能技术生成

最近接触了一些大数据开发相关的东西，项目中用到了HDFS + Spark + Hive的开发流程，因为自己只是为了熟悉开发流程，所以作为新手对于某些问题有一些奇怪的想法，故做法效率会比较低，我个人也正在不断学习优化。
我想要做的工作就是对HDFS上的文件进行筛选处理，比如，我现在有一份学生成绩表，我想实现的是把"成绩大于60"的学生的成绩信息录入系统，数据文件的结构为(数据的字段依次为stuId，stuName， stuGrade)：

实现代码如下：

import com.sun.org.apache.xalan.internal.xsltc.compiler.util.IntType
import org.apache.spark.sql.functions.desc
import org.apache.spark.sql.{Row, SaveMode, SparkSession}
import org.apache.spark.sql.types.{DataType, IntegerType, StringType, StructField, StructType}

object testRDD {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder()
      .appName("testRDD")
      .enableHiveSupport() //连接hive必须加上这一句
      .master("local").getOrCreate()
      
	val rdd

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
取出RDD中每一个字段的值，利用DataFrame.collect()方法实现数据的筛选存储

package com.test.spark.Spark2Hiveimport com.sun.org.apache.xalan.internal.xsltc.compiler.util.IntTypeimport org.apache.spark.sql.functions.descimport org.apache.spark.sql.{Row, SaveMode, SparkSession}import org.apache.spark.sql.types.{DataType, StringT
复制链接

扫一扫

专栏目录