- 博客(7)
- 资源 (8)
- 收藏
- 关注
原创 Hive 远程Debug
hive的远程debug可以说是相当的简单,方便。但是如果你的工作环境有网络上的限制,可能就需要变通一下。一.Attach 模式(适用与本地能够通远程服务器)1.配置idea如图:host:为hive启动服务ip, port:hive默认是8000,可以启动hive的时候进行设置。2.启动hive直接执行命令:hive --debug (当然有些参数是直接可以设置的,比如设置端口 hive --d...
2018-06-28 12:25:24 2495
转载 详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapR
2014-06-20 14:02:57 399
转载 Spark源码分析之-Storage模块
转自:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/
2014-06-20 12:55:22 560
转载 Spark源码分析之-deploy模块
Background在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了Hadoop YARN的方式:外层的资源管理器和应用内的任务调度器;并且分析了Spark应用内的任务调度模块。本文就Spark的外层资源管理器-deploy模块进行分析,探究Spark是如何协调应用之间的资源调度和管理的。Spark最初是交由Mesos进行资源管理,为了使
2014-06-20 10:15:49 551
转载 Spark源码分析之-scheduler模块
转:BackgroundSpark在资源管理和调度方式上采用了类似于Hadoop YARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层的任务调度相互独立,各司其职。本文
2014-06-19 13:21:05 423
转载 Spark Streaming Introduction
随着big data的发展,人们对大数据的处理要求也越来越高,传统的MapReduce等批处理框架在某些特定领域(如实时用户推荐,用户行为分析)已经无法满足人们对实时性的需求。因此诞生了一批如S4,Storm这样的流式的、实时的计算框架。本文介绍的Spark Streaming也正是一个这样的流式计算框架。What is Spark Streaming作为UC Berkeley云计
2014-06-19 13:17:46 377
转载 spark overview
Overview本文章主要对Spark,Spark的基本架构和重要模块作基本介绍,文章不会涉及Spark的安装部署以及使用,对此可以参考Spark官方文档。What is SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce 框架,都是基于map reduce算法所实现的分布式计算框架,拥有Hadoop MapReduce所
2014-06-19 13:16:09 605
unity5.x 从入门到精通(pdf 和 源码)百度云地址
2018-01-06
精通angularjs pdf 和 源码
2017-11-28
Spring 实战 第四版 pdf (高清)
2017-11-15
基于vrml的虚拟社区漫游系统
2013-05-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人