Spark-SQL之每日top3热点搜索词案例统计

实现思路

1、针对原始数据(HDFS文件),获取输入的RDD

2、使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的数据。

2.1 普通的做法:直接在fitler算子函数中,使用外部的查询条件(Map),但是,这样做的话,是不是查询条件Map,会发送到每一个task上一份副本。(性能并不好)

2.2 优化后的做法:将查询条件,封装为Broadcast广播变量,在filter算子中使用Broadcast广播变量进行数据筛选。

3、将数据转换为“(日期_搜索词, 用户)”格式,然后呢,对它进行分组,然后再次进行映射,对每天每个搜索词的搜索用户进行去重操作, 并统计去重后的数量,即为每天每个搜索词的uv。最后,获得“(日期_搜索词, uv)”

4、将得到的每天每个搜索词的uv,RDD,映射为元素类型为Row的RDD,将该RDD转换为DataFrame

5、将DataFrame注册为临时表,使用Spark SQL的开窗函数,来统计每天的uv数量排名前3的搜索词,以及它的搜索uv,最后获取,是一个DataFrame

6、将DataFrame转换为RDD,继续操作,按照每天日期来进行分组,并进行映射,计算出每天的top3搜索词的搜索uv的总数, 然后将uv总数作为key,将每天的top3搜索词以及搜索次数,拼接为一个字符串

7、按照每天的top3搜索总uv,进行排序,倒序排序

8、将排好序的数据,再次映射回来,变成“日期_搜索词_uv”的格式

9、再次映射为DataFrame,并将数据保存到Hive中即可

package Spark_SQL.Hive_sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import scala.Tuple2;
import java.util.*;

/**
 * @Date: 2019/3/18 13:20
 * @Author Angle
 */

/*
* 每日top3热点搜索词案例统计
*
* */

public class DailyTop3Keyword {

    public static void main(String[] args){
        SparkConf conf = new SparkConf().setMaster("local").setAppName("Top3Keyword");
        JavaSparkContext sc = new JavaSparkContext(conf);
//        SQLContext sqlContext = new SQLContext(sc);
        final HiveContext sqlContext = new HiveContext(sc.sc());


        //“伪造数据”作为map查询条件
        // 在实际上企业项目开发中,这个查询条件很可能,是通过J2EE平台插入到某个MySQL表中的
        // 通常是会用Spring框架和ORM框架(MyBatis)的,去提取MySQL表中的查询条件
        Map<S
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值