![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
陆山右
志存高远 脚踏实地
观抑扬褒贬 座中常有剧中人
展开
-
sparksql 报错 ERROR TaskSetManager: Task 0 in stage 0.0 failed 1 times; aborting job 大神解释一下 谢谢
ERROR TaskSetManager: Task 0 in stage 0.0 failed 1 times; aborting jobException in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times...原创 2018-09-17 10:03:07 · 18854 阅读 · 5 评论 -
大数据面试题------12月3日
1、Java中静态块的作用,举例说明。2、对比Scala特质和Java接口。3、对比Scala Any和Java Object。4、什么是模式匹配?有几种模式?5、什么是隐士转换?请描述隐式实体的查找过程。6、介绍case class 和伴生对象、高阶函数。7、...原创 2018-12-03 22:01:09 · 209 阅读 · 0 评论 -
Spark中RDD之间的依赖关系有哪些?它们的区别是什么?各自对应的算子有哪些?------面试题?
Spark中RDD之间的依赖关系有哪些?它们的区别是什么?各自对应的算子有哪些?------面试题? Spark中RDD的高效与DAG(有向无环图)有很大的关系,在DAG调度中需要对计算的过程划分Stage,划分的依据就是RDD之间的依赖关系。RDD之间的依赖关系分为两种,宽依赖(wide dependency/shuffle dependency)和窄依赖(narrow...转载 2018-12-03 21:55:00 · 2194 阅读 · 0 评论 -
Spark的RDD的弹性体现在什么地方?------面试题
RDD的弹性体现在哪里?1.自动进行内存和磁盘切换2.基于lineage的高效容错3.task如果失败会特定次数的重试4.stage如果失败会自动进行特定次数的重试,而且只会只计算失败的分片5.checkpoint【每次对RDD操作都会产生新的RDD,如果链条比较长,计算比较笨重,就把数据放在硬盘中】和persist 【内存或磁盘中对数据进行复用】(检查点、持久化)6.数据调度弹性:...原创 2018-12-03 21:48:18 · 5855 阅读 · 1 评论 -
Spark中RDD和DataFrame、DataSet的区别?---面试题
备注:此博客为转载,原作者地址请点击此处 RDD、DataFrame和DataSet的区别 <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/92a1227beb27"> <img src="//u转载 2018-12-03 21:28:42 · 1892 阅读 · 0 评论 -
Spark的运行架构和基本原理
备注:此博客为转载,转载请点击此处 Spark软件栈Spark Core:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。Spark SQL:Spark处理结构化数据的库,就像Hive SQL,Mysql一样,...转载 2018-12-03 19:02:56 · 408 阅读 · 0 评论 -
Hadoop vs Spark
Hadoop vs Spark相同点不同点优势Spark都是大数据框架本身没有分布式存储系统;1&gt;Spark大部分操作在内存中eg:Spark部署在Hadoop上2&gt;高级数据处理(如实时流处理和机器学习),Spark的功能胜过Hadoop3&gt;实时处理意味着在数据捕获的瞬间提交给分析型的应用程序,立即获得反馈eg:...原创 2018-12-01 09:22:41 · 186 阅读 · 0 评论 -
Scala学习笔记
scala学习笔记1、scala基于JVM的语言,面向对象,+面向函数2、6个特性6特性解释1.与Java无缝整合2类型推断3.支持并发和分布式actor4.Traits相当于java中的接口和抽象类5.模式匹配相当于java中的switch…case—6.高阶函数3、scala类型intStringDo...原创 2018-12-02 21:07:48 · 156 阅读 · 0 评论 -
Spark提供了一站式的数据解决方案
Spark提供了一站式的数据解决方案Spark是一个高速,通用大数据计算处理引擎。简单明了,低调中包涵了野心。官网继续介绍亮点:1.速度快,Spark直接上数据,超过Hadoop内存MapReduce速度100+以上,又或者磁盘MapReduce速度10+以上。why?Spark拥有高级DAG(有向无环图)引擎支持数据循环利用,多步数据管道以及in-memory computing。其实S...原创 2018-11-26 17:11:21 · 745 阅读 · 1 评论 -
Spark on Yarn知识总结
Spark on Yarn 根据Driver 在集群中的位置分为两种模式,一种是Yarn-Client 模式,一种是 Yarn-Cluster模式(又称为standalone模式)Yarn-Client模式中,Driver在客户端本地运行,这种模式可以使得Spark Application和客户端进行交互,因...转载 2018-11-26 11:13:35 · 235 阅读 · 0 评论 -
Spark运行流程步骤
初识Spark的朋友 ,下面是我汇总后的Spark总结和自己整合的一张流程图,希望可以帮助到你,也可以给我提出建议,一同进步1.认知Spark:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的...转载 2018-11-26 11:11:34 · 736 阅读 · 0 评论 -
*****spark的基本概念和工作原理
原 Spark的基本概念及工作原理 2016年11月11日 10:35:09 u013063153 阅读数:1197更多 <div class="tags-box space"> <span class="...转载 2018-11-23 09:11:29 · 107 阅读 · 0 评论 -
Spark---What---Why---How!!!!!!!!
转发:http://blog.csdn.net/bolu1234/article/details/51867099Spark:大数据的电花火石!2014年06月13日 23:19:10 anzhsoft 阅读数:28516更多个人分类: 架构探索Spark云计算所属专栏: Spark技术内幕版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn...转载 2018-10-26 11:16:33 · 176 阅读 · 0 评论 -
Confluent开启报错 /bin ./confluent start 怎么处理
原创 2018-09-19 09:54:40 · 438 阅读 · 0 评论 -
安装 mongoDB ==执行命令 ===>./mongod 报错
=============== 报错 exception in initAndListen: DBPathInUse: Unable to lock the lock file: /data/db/mongod.lock (Unknown error). Another mongod instance is already running on the /data/db dire...原创 2018-09-18 10:47:14 · 823 阅读 · 0 评论 -
Spark SQL前进之路学习笔记_2018_12_14
Spark SQL学习资料收集,方便自己学习,掌握知识点sparkSQL实战详解Spark SQL(Spark连接mysql),学习链接地址认识spark SQL,学习链接地址spark SQLSpark连接hive,学习链接地址Spark SQL整体框架,学习链接地址如果要想真正的掌握sparkSQL编程,首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问...原创 2018-12-14 09:24:45 · 321 阅读 · 0 评论