![](https://img-blog.csdnimg.cn/1cb95bc13b254b359a74bc71d29148b4.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
文章平均质量分 53
Apache Spark是用于大规模数据处理的统一分析引擎
黑冰vip
这个作者很懒,什么都没留下…
展开
-
Day43[20180716]_Spark SQL(二)
Spark SQL是Spark 框架中一个重要模块SparkSQL: 结构化(Schema)数据处理分析框架Spark SQL is Apache Spark's module for working with structured data.http://spark.apache.org/sql/1. 如何读取数据 Spark2.x使用SparkSession读取数据 SparkSession: spark -> 实例对象名称 spark.rea.原创 2022-04-08 21:37:14 · 1515 阅读 · 0 评论 -
Day44[20180719]_Spark SQL(三)
-1.Scala语言基础 Spark大数据分析框架使用Scala语言编写-2.SparkCore 类似MapReduce 海量数据处理并行计算框架 数据结构:RDD(弹性分布式数据集) -i.特征(五个特征,前三个是核心) -a. List<Partition> -b.Compute Split -c.List<RDD> -d.Optional,RDD[(Key,Value)] .原创 2022-04-10 09:52:46 · 283 阅读 · 0 评论 -
Day46[20180726]_Spark Streaming(一)
Apache Spark核心编程模块集批处理(离线处理)、交互式处理和流式处理 为一体的一栈式大数据解决方案 - Core 最核心,Spark 其他所有模块都是以此为基础进行展开 数据结构:分布式集合RDD SparkContext:sc 批处理(batch processing),处理数据N+1 注意: 每次处理的数据都是一个固定的数据集,不是变化的 - SQL D原创 2022-04-08 22:03:39 · 933 阅读 · 0 评论 -
Day47[20180728]_Spark Streaming(二)
Spark Streaming StreamingContext: scc -a. 实时处理流式数据框架 Apache Spark框架中一个模块 -b. 按照时间间隔将流式数据划分为很多批次batch 每批次数据进行处理,底层属于SparkCore中RDD处理 batchInterval -c. 数据结构 DStream: 离散的流、分离的流 DStream = .原创 2022-04-08 23:56:20 · 1096 阅读 · 0 评论 -
day49
Day49原创 2021-11-28 19:37:06 · 1428 阅读 · 0 评论 -
大数据面试题
一.SQL1、查询出每门课程的及格人数和不及格人数2、使用分段[100-80],[80-60][‹60]来统计各科成绩,分别统计:各分数段人数,课程号和课程名称3、下面是学生的成绩表(表名score,列名:学号、课程号、成绩)5.查询没有学全所有课的学生的学号、姓名6.查询两门以上不及格课程的同学的学号及其平均成绩二、Hadoop1、hadoop数据倾斜如何处理...原创 2022-04-08 12:42:17 · 5324 阅读 · 0 评论