spark处理数据至mysql

最新推荐文章于 2024-03-10 21:02:55 发布

念念不忘_

最新推荐文章于 2024-03-10 21:02:55 发布

阅读量356

点赞数

分类专栏： spark 文章标签： mysql spark 导入数据库

本文链接：https://blog.csdn.net/bb23417274/article/details/82935297

版权

本文介绍如何利用Spark处理数据，并将其高效地导入到MySQL数据库中，结合之前关于ip归属地统计的优化经验，利用广播变量提升性能。

摘要由CSDN通过智能技术生成

上一篇来自： ip归属地统计 II 优化（广播变量）

package com.ws.spark
import java.sql.{Connection, DriverManager, PreparedStatement}
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 统计日志中ip归属地出现次数导入mysql
  */
object IpFromCountToMysql {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("IpFromCount2").setMaster("local[4]")

    val sc = new SparkContext(conf)

    //从hdfs中读取规则
    val rulesHDFS: RDD[String] = sc.textFile(args(0))

    val rules: RDD[(Long, Long, String)] = rulesHDFS.map(line => {
      val rules: (Long, Long, String) = IpFromUtils.generalRules(line)
      rules
    })

    //将多个Executor中的ip规则聚合到Driver端
    val allRules: Array[(Long, Long, String)] = rules.collect()

    //Driver端的数据广播到Executor,广播变量的引用（还

最低0.47元/天解锁文章

念念不忘_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark处理数据至mysql

上一篇来自： ip归属地统计 II 优化（广播变量）package com.ws.sparkimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.a...
复制链接

扫一扫