[置顶] Spark SQL 源码分析系列文章

Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
阅读(18784) 评论(1)

Apache Helix简介

Apache HELIX一个为partitioned和replicated分布式资源 而设计的 集群管理框架What is HELIXApache Helix是一个通用的集群资源管理框架,它能被用作自动管理存在于集群节点上的分区的,有副本的分布式资源。Helix能够在结点down掉和recovery后,集群扩容,配置更新后自动的重新分配资源。前言-What Is Cluster Management...
阅读(3251) 评论(0)

HDFS之Node角色

Secondary NameNode:NameNode是一种logappend方式来存储对dfs的修改操作,editlog。 NameNode启动的时候,会去从fsimage中读取HDFS的状态,然后从editlog中恢复恢复对dfs的修改操作。然后在对fsimage写入新的状态,启动一个新的空的edits file.由于NameNode只会在其启动的时候,会合并fsimage和editlog....
阅读(812) 评论(0)

LinkedIn Cubert 实践指南

LinkedIn Cubert安装指南 Understanding Cubert Concepts(一)Partitioned Blocks Understanding Cubert Concepts(二)Co-Partitioned Blocks...
阅读(1175) 评论(0)

Understanding Cubert Concepts(二)Co-Partitioned Blocks

Understanding Cubert Concepts(二):Cubert Co-Partitioned Blocks话接上文Cubert PartitionedBlocks,我们介绍了Cubert的核心Block概念之一的分区块,它是一种根据partitionKeys和cost function来对原始数据进行Redistribution和Transformation来结构化数据,这种结构化的...
阅读(1318) 评论(0)

Understanding Cubert Concepts(一)Partitioned Blocks

Understanding Cubert Concepts:Cubert Concepts对于Cubert,我们要理解其核心的一些概念,比如BLOCK。这些概念也是区别于传统的关系型范式(Pig,Hive)等数据处理流程并使得Cubert在大规模数据下JOIN和Aggregation中取胜的关键因素。(自己测下来,CUBE的计算效率比Hive高好多倍。)BLOCKCubert定义了一个BLOCK的概...
阅读(1204) 评论(0)

LinkedIn Cubert安装指南

最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert。自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间。下面看下这个框架的介绍: Cubert完全用Java开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert使用MeshJoin算法处理大时间窗口下的大数据集,...
阅读(1877) 评论(0)

Build Spark1.3.1 with CDH HADOOP

Build Spark1.3.1 with CDH HADOOP1、找到CDH的版本[root@web02 spark1.3]# hadoop version Hadoop 2.0.0-cdh4.7.0 Subversion file:///var/lib/jenkins/workspace/CDH4.7.0-Packaging-Hadoop/build/cdh4/hadoop/2.0.0-cdh4...
阅读(2085) 评论(0)

sbt pom reader - sbt读取pom

sbt pom reader - sbt读取pomSpark为了依赖项的统一管理用了sbt pom reader这个插件,sbt编译发布也是从pom里读GAV了。 我记得老版本sbt的依赖项是写在project/SparkBuild.scala里的。这个工具在java/scala项目内很有使用场景。地址在:https://github.com/sbt/sbt-pom-reader1.配置插件在/ap...
阅读(1823) 评论(0)

Apache Hadoop NextGen MapReduce (YARN)

Apache Hadoop NextGen MapReduce (YARN)MRV2的设计是基于分离JobTracker的主要职能,将以下2个职能放在2个单独的进程中,以前都是在一个(JobTracker)进程中。1、资源管理 2、Job调度/监控2个核心概念: 1、全局的资源管理器 global Resource Manager (RM) 2、Per Application 每个应用程序有一...
阅读(1065) 评论(0)

Spark SQL之External DataSource外部数据源(二)源码分析

Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。    在Spark SQL源代码的org/spark/sql/sources目...
阅读(7170) 评论(1)

Spark SQL之External DataSource外部数据源(一)示例

一、Spark SQL External DataSource简介  随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。  这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家...
阅读(6315) 评论(0)

Docker 安装 on Mac OS X

一、简介  Docker是一个开源的容器引擎,能提供虚机化,从而达到隔离应用,可移植到任意安装有Docker的机器上运行,这对开发者来说是一个极大的福音。  由于工作上原因,最近准备开始使用Docker(公司装Docker的时候,linux server内核版本太低,需要重新编译)。  本文主要讲解如何在Mac OSX上安装Docker。    Tips:由于Docker引擎是使用了特定于Linux......
阅读(9937) 评论(0)

Hive中跑MapReduce Job出现OOM问题分析及解决

一、引子今天在跑一段很复杂而且涉及数据量10年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不是执行过程,而是driver提交job阶段就OOM了。Hive中XMLEncoder序列化Mapred...
阅读(7624) 评论(0)

sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following

一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-common-hdfs.jar内包含了self4j这个jar包,导致冲突。此类异常一般是由于打包不规范...
阅读(8651) 评论(3)

Spark 常见问题小结

1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory当前的集群的可用资源不能满足应用程序所请求的资源。资源分2类: cores 和 ramCo...
阅读(2797) 评论(0)
81条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:465082次
    • 积分:5144
    • 等级:
    • 排名:第5348名
    • 原创:80篇
    • 转载:0篇
    • 译文:1篇
    • 评论:67条
    博客专栏
    微博
    文章分类
    最新评论