spark小记——scala的Map类型转sparksql的dataframe

源码:

package com.ydj.sql

import org.apache.spark.sql.SparkSession

import scala.collection.mutable.ArrayBuffer

/**
  * @Auther: yuandejin
  * @Date: 2019-09-04 13:43
  * @Description: 
  */
object MapToDataFrame {


  def main(args: Array[String]): Unit = {

    //1. 构建sparkSession
    val sparkSession = SparkSession
      .builder()
      .appName("MapToDataFrame")
      .master("local")
      .getOrCreate()

    //2. 隐式转换 rdd转dataFrame
    import sparkSession.implicits._
    
    //3. scala的Map数据结构
    val map = Map("aa" -> "aaa", "bb" -> "bbb")

    //4. map的所有key
    val mk = map.keys
    
    //5. 创建rdd
    val rdd = sparkSession.sparkContext.parallelize(Seq(map))
    
    //6. 根据map的key取出所有的值,构建新的rdd,并转成dataFrame 
    val frame = rdd.map(x => {
        val bb = new ArrayBuffer[String]()
        for (k: String <- mk) {
          bb.+=(x(k))
        }
        bb
      }).map(x => (x(0), x(1))).toDF("k1", "k2")
    //7. 打印
    frame.show()
  }
}

运行结果:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用 JavaScript 编写的记忆游戏(附源代码)   项目:JavaScript 记忆游戏(附源代码) 记忆检查游戏是一个使用 HTML5、CSS 和 JavaScript 开发的简单项目。这个游戏是关于测试你的短期 记忆技能。玩这个游戏 时,一系列图像会出现在一个盒子形状的区域中 。玩家必须找到两个相同的图像并单击它们以使它们消失。 如何运行游戏? 记忆游戏项目仅包含 HTML、CSS 和 JavaScript。谈到此游戏的功能,用户必须单击两个相同的图像才能使它们消失。 点击卡片或按下键盘键,通过 2 乘 2 旋来重建鸟儿对,并发现隐藏在下面的图像! 如果翻开的牌面相同(一对),您就赢了,并且该对牌将从游戏中消失! 否则,卡片会自动翻面朝下,您需要重新尝试! 该游戏包含大量的 javascript 以确保游戏正常运行。 如何运行该项目? 要运行此游戏,您不需要任何类型的本地服务器,但需要浏览器。我们建议您使用现代浏览器,如 Google Chrome 和 Mozilla Firefox, 以获得更好、更优化的游戏体验。要玩游戏,首先,通过单击 memorygame-index.html 文件在浏览器中打开游戏。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。
首先,你需要在Spark中启用Kafka Stream,以便从Kafka主题中拉取数据。然后,使用Spark SQL和DataFrame API对数据进行处理和分析。最后,你可以将分析结果存储到Hive中。 以下是一些基本步骤: 1. 在pom.xml或build.gradle中添加Kafka和Spark Streaming依赖项。 2. 创建一个KafkaStream,设置Kafka连接参数和主题名称,并使用Spark Streaming API拉取数据。 3. 使用Spark SQL将KafkaStream换为DataFrame,并对其进行清理和换。 4. 使用DataFrame API或SQL查询对数据进行分析和计算。 5. 将结果写入Hive表中,以便进一步查询和分析。 以下是一些示例代码: ```scala import org.apache.spark.streaming.kafka._ import org.apache.spark.streaming._ import org.apache.spark.sql._ val ssc = new StreamingContext(sparkConf, Seconds(5)) val kafkaParams = Map[String, String]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer].getName, "value.deserializer" -> classOf[StringDeserializer].getName, "group.id" -> "traffic_group" ) val topics = Array("traffic_data") val stream = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) ) // 将KafkaStream换为DataFrame val df = stream.map(_.value).toDF() // 对DataFrame进行清理和换 val cleanedDf = df.select( from_json(col("value"), trafficSchema).as("traffic") ).selectExpr("traffic.*") // 对数据进行分析和计算 val resultDf = cleanedDf.groupBy("road").agg(avg("speed"), max("volume")) // 将结果写入Hive表中 resultDf.write.mode("overwrite").saveAsTable("traffic_analysis") ``` 上面的示例代码演示了从Kafka主题中拉取交通数据,并使用Spark SQL和DataFrame API进行分析和计算,然后将结果写入Hive表中。你需要根据你的数据和需求进行适当的修改和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值