spark系列二：sparkcore和sparksql综合案例

最新推荐文章于 2024-07-28 16:45:11 发布

cjx42518041

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量525

点赞数

文章标签：大数据

数据格式：
日期用户搜索词城市平台版本

需求：
1、筛选出符合查询条件（城市、平台、版本）的数据
2、统计出每天搜索uv排名前3的搜索词
3、按照每天的top3搜索词的uv搜索总次数，倒序排序
4、将数据保存到hive表中

1、针对原始数据（HDFS文件），获取输入的RDD
2、使用filter算子，去针对输入RDD中的数据，进行数据过滤，过滤出符合查询条件的数据。
2.1 普通的做法：直接在fitler算子函数中，使用外部的查询条件（Map），但是，这样做的话，是不是查询条件Map，会发送到每一个task上一份副本。（性能并不好）
2.2 优化后的做法：将查询条件，封装为Broadcast广播变量，在filter算子中使用Broadcast广播变量进行数据筛选。
3、将数据转换为“(日期_搜索词, 用户)”格式，然后呢，对它进行分组，然后再次进行映射，对每天每个搜索词的搜索用户进行去重操作，并统计去重后的数量，即为每天每个搜索词的uv。最后，获得“(日期_搜索词, uv)”
4、将得到的每天每个搜索词的uv，RDD，映射为元素类型为Row的RDD，将该RDD转换为DataFrame
5、将DataFrame注册为临时表，使用Spark SQL的开窗函数，来统计每天的uv数量排名前3的搜索词，以及它的搜索uv，最后获取，是一个DataFrame
6、将DataFrame转换为RDD，继续操作，按照每天日期来进行分组，并进行映射，计算出每天的top3搜索词的搜索uv的总数，然后将uv总数作为key，将每天的top3搜索词以及搜索次数，拼接为一个字符串
7、按照每天的top3搜索总uv，进行排序，倒序排序
8、将排好序的数据，再次映射回来，变成“日期_搜索词_uv”的格式
9、再次映射为DataFrame，并将数据保存到Hive中即可

java版本：

package cn.spark.study.core;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

public class everydaytop {
public static void main(String[] args) {
  SparkConf conf = new SparkConf()
    .setAppName("hivesource");

  JavaSparkContext sc = new JavaSparkContext(conf);
  SQLContext sqlcontext = new SQLContext(sc);
  HiveContext hc = new HiveContext(sc.sc());
  JavaRDD<String> words = sc.textFile("hdfs://master:9000/dailydataset.txt");

  Map<String,List<String>> queryset = new HashMap<String,List<String>>();
  queryset.put("city", Arrays.asList("xian"));
  queryset.put("platform", Arrays.asList("android"));
  queryset.put("version", Arrays.asList("1.0","1.2","1.5","2.0"));

  final Broadcast<Map<String,List<String>>> querysetbroadcast = sc.broadcast(queryset);
  JavaRDD<String> filterrdd = words.filter(new Function<String,Boolean>(){