![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 86
InnerPeace_
这个作者很懒,什么都没留下…
展开
-
大数据面试题(二)
一、什么是传统的消息传递方法?传统的消息传递方法有两种: 排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。 发布--订阅:在这个模型中,消息被广播给所有的用户。 二、请说明kafka相对传统技术有什么优势?Kafka与传统的消息传递技术相比优势在于:快速:单一的kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作。可伸缩...原创 2018-10-09 22:25:35 · 1265 阅读 · 0 评论 -
Spark面试题(二)
一、spark streaming和storm有何区别?一个实时毫秒,一个准实时亚秒,不过storm的吞吐率比较低。 二、spark有哪些组件?Master:管理集群和节点,不参与计算。Worker:计算节点,进程本身不参与计算,和master汇报。Driver:运行程序的main方法,创建sparkcontext对象。Spark context:控制整个applica...原创 2018-09-13 22:49:43 · 6230 阅读 · 1 评论 -
Spark面试题(一)
一、spark集群运算的模式Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。standalone(集群模式):典型的Mat...原创 2018-09-03 22:30:15 · 4248 阅读 · 0 评论 -
大数据面试题(一)
一、.hdfs写文件的步骤答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向D...原创 2018-09-04 23:30:41 · 27633 阅读 · 4 评论 -
Spark的Shuffle过程介绍
Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner得到对应的bucketId,然后填充...转载 2018-08-14 15:26:26 · 479 阅读 · 0 评论 -
【hadoop】job提交全过程
一、作业提交过程之 YARN(1)作业提交第 0 步:client 调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。第 1 步:client 向 RM 申请一个作业 id。第 2 步:RM 给 client 返回该 job 资源的提交路径和作业 id。第 3 步:client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。第 4 步:c...转载 2018-06-08 22:41:46 · 8934 阅读 · 2 评论 -
【hadoop】yarn基本架构和工作机制
一、yarn基本架构二、yarn工作机制(0)Mr 程序提交到客户端所在的节点。(1)Yarnrunner 向 Resourcemanager 申请一个 Application。(2)rm 将该应用程序的资源路径返回给 yarnrunner。(3)该程序将运行所需资源提交到 HDFS 上。(4)程序资源提交完毕后,申请运行 mrAppMaster。(5)RM 将用户的请求初始化成一个 task。(...转载 2018-06-08 22:32:21 · 328 阅读 · 0 评论 -
【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作机制
MapReduce整个工作流程:一、MapTask阶段(1)Read 阶段:Map Task 通过用户编写的 RecordReader,从输入 InputSplit 中解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给用户编写 map()函数处理,并产生一系列新的 key/value。(3)Collect 收集阶段:在用户编写 map()函数中,...转载 2018-06-08 22:28:43 · 18689 阅读 · 4 评论