Spark练习题
文章平均质量分 91
Spark练习题
骑着蜗牛ひ追导弹'
鲸落于海,星沉于洼,风隐于密林,蝉鸣漏进夏至。
展开
-
【回顾】RDD的转换算子案例实操
文章目录1) 数据准备2) 需求描述3) 需求分析4) 功能实现1) 数据准备agent.log:时间戳,省份,城市,用户,广告【中间字段使用空格分隔】返回顶部2) 需求描述统计出每一个省份每个广告被点击数量排行的 Top3返回顶部3) 需求分析每一个城市 — 分组每个广告 — 分组每个广告被点击数量 — 聚合(求和)排行Top3 — 降序排序,取前三返回顶部4) 功能实现// TODO: 获取数据val source = sc.textFile(..原创 2022-01-02 17:16:50 · 594 阅读 · 0 评论 -
【Spark】Apache日志分析
文章目录Apache日志分析一、日志格式二、日志解析1.主要步骤2.代码实现三、日志分析1.转为DataFrame2.统计Web服务器返回的内容大小3.统计不同的状态代码出现的次数4.查看频繁访问(大于10次)的客户端主机5.查看被访问最多(大于10次)的资源标识符6.查询状态码不是200中访问次数最多(大于10次)的资源标识符7.统计独立主机数Apache日志分析一、日志格式这里用到的服务器日志格式是 Apache Common Log Format (CLF)。简单数来,你看到的每一行都是如下原创 2021-04-29 20:38:27 · 588 阅读 · 0 评论 -
【SparkSQL 项目】出租乘客行程记录分析
文章目录一、项目分析1.数据集结构2.业务场景3.处理过程使用的技术点二、流程分析1.理解数据集2.理解需求和结果集3.反推每一个步骤三、步骤分析1.读取数据集2.数据清洗2.1 数据转换 DataFrame:DataSet[Row] => DataSet[Trip]① 定义Trip样例类② 转换数据⑴ 定义转换对象方法: RDD[Row] => RDD[Trip]⑵ 转换时间类型数据⑶ 转换地点数据⑷ 包装Row处理空值 --- 返回option⑸ 异常处理★ 简单案例解释Either作用..原创 2020-12-23 20:04:06 · 442 阅读 · 0 评论 -
【2020大数据应用赛试题】Spark分析处理
文章目录2020大数据应用赛试题任务一、Spark技术栈有哪些组件?简述其功能,及应用场景。任务二、本题目使用spark进行数据分析数据说明题目题目一题目二题目三题目四2020大数据应用赛试题任务一、Spark技术栈有哪些组件?简述其功能,及应用场景。1、其它组件的基础,spark的内核,主要包含:有向循环图、RDD 、Lingage、Cache、broadcast等,并封装了底层通讯框架、是spark的基础。2、Spark Streaming是一个对实时数据流进行高通量、容错处理的流式处理系统,原创 2021-04-19 11:36:14 · 1010 阅读 · 1 评论 -
【2020大数据应用赛样卷试题】Spark分析处理
【2020大数据应用赛样卷试题 — Spark分析处理】Spark作为大数据第三代计算引擎,在企业中被广泛应用,下面请你完成Spark相关题目:一、请简答Spark、Mapreduce、Hive三者区别,并说明分别在什么场景下使用三者,请分别举一个案例(5分)Spark 与 Hive的区别:SparkSQL替换的是Hive的查询引擎,Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存了大数据的数据仓库,进行分布式交互查询的查询引擎,所以SparkSQL暂时并不能完全替代原创 2020-12-15 15:19:22 · 3128 阅读 · 2 评论 -
【Spark-core】 RDD算子使用练习
Spark-core RDD算子使用练习根据以下数据集统计出每个月中国城市的 PM2.5总量package SparkRDD.RDD算子.测验import org.apache.commons.lang.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.junit.Testobject Test { def main(args原创 2020-11-18 15:57:03 · 371 阅读 · 0 评论 -
【Spark基础练习题一】
简单配置环境package spark练习题.练习题01import org.apache.spark.rdd.{JdbcRDD, RDD}import org.apache.spark.{SparkConf, SparkContext}import org.junit.Testimport org.mortbay.util.ajax.JSONclass e01 { val conf = new SparkConf().setAppName("test").setMaster("loc原创 2020-11-29 14:43:30 · 2903 阅读 · 0 评论 -
【spark基础练习题二 】SparkCore+SparkSQL
以下案例本人使用了sparksql、sparkcore两种方式进行处理配置环境package spark练习题.练习题02import breeze.util.partitionimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.{SparkConf, Spar.原创 2020-11-29 20:19:45 · 1265 阅读 · 0 评论