利用Spark求区域用户访问量（每个省的访问量）

最新推荐文章于 2022-04-17 16:29:10 发布

涤生（bluez）

最新推荐文章于 2022-04-17 16:29:10 发布

阅读量1k

点赞数

分类专栏：大数据文章标签： spark 大数据 sql scala

本文链接：https://blog.csdn.net/weixin_40903057/article/details/88421952

版权

package com.qf.gp1707.day06

import java.sql.{Connection, Date, DriverManager, PreparedStatement}
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 求区域用户访问量（每个省的访问量）
  */
object IPSearch {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("IPSearch")
      .setMaster("local[2]")

    val sc = new SparkContext(conf)

    //獲取全國IP的分配的基礎數據
    val ipInfo: Array[(String, String, String)] = sc.textFile("./src/main/scala/com/qf/gp1707/day06/ipsearch/ip.txt").map(line => {
      //切分
      val fields = line.split("\\|")
      //開始IP
      val startIP = fields(2)
      //結束IP
      val endIP = fields(3)
      //省份
      val province = fields(6)
      (startIP, endIP, province)
    }).collect()

    //將需要廣播的數據廣播到集群中的相應的Executor  广播到所有Executor避免网络大量IO，但是主要内存溢

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

涤生（bluez）

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用Spark求区域用户访问量（每个省的访问量）

package com.qf.gp1707.day06import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{...
复制链接

扫一扫