![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Jsoooo
这个作者很懒,什么都没留下…
展开
-
Spark-创建执行环境SparkEnv
SparkEnv 构造步骤:1.创建安全管理器SecurityManager: 主要对权限、账号进行设置,若用YARN作为集群管理器,则需要证书生成secret key登录。2.创建基于Akka的分布式消息系统ActorSystem: Spark使用它来实现并发编程,也用它来发送分布式消息。 Spark1.6后已使用Netty完全替代Akka 3.创建Map任务输出跟踪...原创 2020-01-10 15:29:21 · 211 阅读 · 0 评论 -
大数据-笔经(数据清洗)
谈谈你对ETL过程中数据清洗的认识参考答案:数据清洗包括以下内容:1.数据补缺:对空数据、缺失数据进行数据补缺操作,无法处理的做标记。2.数据替换:对无效数据进行数据的替换。3.格式规范化:将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式。4.主外键约束:通过建立主外键约束,对非法数据进行数据替换或导出到错误文件重新处理。...原创 2019-03-09 13:23:45 · 1066 阅读 · 0 评论 -
大数据-笔经(Spark数据倾斜)
小赵在测试spark的时候,写了如下的代码:dolines = sc.textFile("data.txt")pairs = lines.map(lambda s: (s, 1))counts = pairs.groupByKey(lambda a, b: a + b)结果运行时等待了一段时间直接报错,data.txt文件较大,小赵对其进行抽样后结果如下:dataappleappl...原创 2019-03-09 13:21:51 · 122 阅读 · 0 评论 -
大数据-笔经(Spark、MapReduce执行过程)
以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。1.MapReduce:2.Spark:原创 2019-03-09 13:19:18 · 384 阅读 · 0 评论 -
大数据-面经附个人理解(Spark Shuffle)(1)
Spark:1.Spark中的shuffle有哪些? 1.1.最早的Hash Based Shuffle(2.0以上被弃用) 每个Mapper对每一个Reducer都会创建相应的bucket,bucket数量为 Mapper个数×Reducer个数。缺点是会产生太多小文件,后面将一个core上的 多个Mapper的输出合并到同一个文件,bucket数量变为...原创 2019-03-01 18:36:47 · 289 阅读 · 0 评论 -
Spark-checkPoint
1.检查点机制目标:2.驱动程序容错: 启动失败后重启,会用getOrCreate方法从检查点目录初始化出StreamingContext3.工作节点容错: 1.最佳方式还是使用可靠的数据源(HDFS、拉式Flume等)。 2.提供exactly once语义,即使一个工作节点上的数据处理失败, 容错后得出的结果和之前是一样的...原创 2019-01-20 21:09:42 · 127 阅读 · 0 评论 -
Spark Streaming-状态转换
1.转换分为无状态转换和有状态转换。 取决于每个批次的处理是否依赖于之前批次的数据。2.无状态转换: 1.概念:就是把简单的RDD操作应用在每个批次上, 也就是转换Dstream中的所有RDD。 2.算子:map()、reduceByKey()、filter()等 3.例子:3.有状态转换: 1.概念:跨时间区间的跟踪数据的操作, ...原创 2019-01-20 15:11:17 · 384 阅读 · 0 评论 -
SparkSQL奇葩错误 UTF8String类 noSerializableException
用SparkSQL读取Hive中的数据后,将DataFrame转化成JavaRDD,想要foreach打印里面的内容,或者collect一下,都会报错:说是某各类没有序列化,但是我找来找去没有在闭包内部使用外部类,连collect一下也报错。上网查说是版本的bug,这是Spark2.2.0的bug,后面2.2.1以后就修复了,我就换了2.2.1的版本,就直接可以跑了...原创 2018-12-28 14:25:14 · 615 阅读 · 0 评论 -
Spark-RDD、Dataset、DataFrame互相转换
转自:https://www.jianshu.com/p/71003b152a84转载 2018-12-10 19:42:32 · 357 阅读 · 0 评论 -
大数据技术图谱
转自:https://blog.csdn.net/stpeace/article/details/79232656转载 2018-11-20 10:50:47 · 644 阅读 · 0 评论 -
SparkSession、SparkContext、SQLContext
Application:用户编写的Spark应用程序,Driver 即运行上述 Application 的 main() 函数并且创建 SparkContext。SparkContext:整个应用的上下文,控制应用的生命周期。RDD:不可变的数据集合,可由 SparkContext 创建,是 Spark 的基本计算单元。SparkSession是Spark2.0新引入的SparkSess...原创 2018-11-07 14:31:54 · 2396 阅读 · 0 评论 -
Hadoop和Spark的默认调度策略
转自:Hadoop:https://www.cnblogs.com/LgyBean/p/5040129.htmlSpark:https://blog.csdn.net/dabokele/article/details/51526048转载 2018-11-06 16:51:46 · 918 阅读 · 0 评论 -
Hadoop组件的各个进程及其作用
转自:https://www.jianshu.com/p/37b04eeedc6d转载 2018-11-06 16:46:49 · 1623 阅读 · 0 评论 -
Spark 应用程序运行流程
转自:https://blog.csdn.net/xu__cg/article/details/70037933转载 2018-10-23 20:09:02 · 493 阅读 · 0 评论 -
Spark RDD内部结构
转自https://blog.csdn.net/u011094454/article/details/78992293转载 2018-10-23 19:39:48 · 246 阅读 · 0 评论 -
大数据相关-笔/面试题
Hadoop面试题:https://blog.csdn.net/kingmax54212008/article/details/51257067?utm_source=blogxgwz2Hadoop笔试题:https://blog.csdn.net/zhongqi2513/article/details/78349083Spark面试题:https://blog.csdn.net/wei...转载 2018-10-20 14:04:32 · 246 阅读 · 0 评论 -
Spark笔试题
转自https://blog.csdn.net/china_demon/article/details/53095480?utm_source=blogxgwz1https://blog.csdn.net/bingoxubin/article/details/79087724?utm_source=blogxgwz2转载 2018-10-22 20:35:03 · 1476 阅读 · 0 评论 -
Kafka集成SparkStreaming
转自:https://blog.csdn.net/jacklin929/article/details/53888763转载 2018-10-18 18:33:05 · 74 阅读 · 0 评论