OopsOutOfMemory盛利的博客

分布式计算||数据仓库||数据挖掘

排序:
默认
按更新时间
按访问量

Spark SQL 源码分析系列文章

Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。

2014-07-29 09:46:46

阅读数:23717

评论数:1

Apache Helix简介

Apache HELIX一个为partitioned和replicated分布式资源 而设计的 集群管理框架What is HELIXApache Helix是一个通用的集群资源管理框架,它能被用作自动管理存在于集群节点上的分区的,有副本的分布式资源。Helix能够在结点down掉和recover...

2015-08-11 10:38:53

阅读数:4928

评论数:0

HDFS之Node角色

Secondary NameNode:NameNode是一种logappend方式来存储对dfs的修改操作,editlog。 NameNode启动的时候,会去从fsimage中读取HDFS的状态,然后从editlog中恢复恢复对dfs的修改操作。然后在对fsimage写入新的状态,启动一个新的空...

2015-08-04 16:13:01

阅读数:1438

评论数:0

LinkedIn Cubert 实践指南

LinkedIn Cubert安装指南 Understanding Cubert Concepts(一)Partitioned Blocks Understanding Cubert Concepts(二)Co-Partitioned Blocks

2015-07-01 11:25:50

阅读数:1448

评论数:0

Understanding Cubert Concepts(二)Co-Partitioned Blocks

Understanding Cubert Concepts(二):Cubert Co-Partitioned Blocks话接上文Cubert PartitionedBlocks,我们介绍了Cubert的核心Block概念之一的分区块,它是一种根据partitionKeys和cost functi...

2015-07-01 10:54:56

阅读数:1776

评论数:0

Understanding Cubert Concepts(一)Partitioned Blocks

Understanding Cubert Concepts:Cubert Concepts对于Cubert,我们要理解其核心的一些概念,比如BLOCK。这些概念也是区别于传统的关系型范式(Pig,Hive)等数据处理流程并使得Cubert在大规模数据下JOIN和Aggregation中取胜的关键因...

2015-06-29 17:59:16

阅读数:1537

评论数:0

LinkedIn Cubert安装指南

最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert。自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间。下面看下这个框架的介绍: Cubert完全用Java开发,并提供一种脚本语言。它是针对报表...

2015-06-18 11:41:31

阅读数:2242

评论数:0

Build Spark1.3.1 with CDH HADOOP

Build Spark1.3.1 with CDH HADOOP1、找到CDH的版本[root@web02 spark1.3]# hadoop version Hadoop 2.0.0-cdh4.7.0 Subversion file:///var/lib/jenkins/workspace/CD...

2015-04-20 16:39:53

阅读数:2406

评论数:0

sbt pom reader - sbt读取pom

sbt pom reader - sbt读取pomSpark为了依赖项的统一管理用了sbt pom reader这个插件,sbt编译发布也是从pom里读GAV了。 我记得老版本sbt的依赖项是写在project/SparkBuild.scala里的。这个工具在java/scala项目内很有使用场景...

2015-04-20 12:05:01

阅读数:2377

评论数:0

Apache Hadoop NextGen MapReduce (YARN)

Apache Hadoop NextGen MapReduce (YARN)MRV2的设计是基于分离JobTracker的主要职能,将以下2个职能放在2个单独的进程中,以前都是在一个(JobTracker)进程中。1、资源管理 2、Job调度/监控2个核心概念: 1、全局的资源管理器 glob...

2015-04-17 18:03:04

阅读数:1287

评论数:0

Spark SQL之External DataSource外部数据源(二)源码分析

Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。    在Spark SQL源代码的org/spark/sql/sources目

2014-12-22 01:12:30

阅读数:9215

评论数:1

Spark SQL之External DataSource外部数据源(一)示例

一、Spark SQL External DataSource简介  随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。  这使得Spark SQL支持了更多的类型数据源,如json, parquet, a...

2014-12-22 01:12:20

阅读数:7869

评论数:0

Docker 安装 on Mac OS X

一、简介  Docker是一个开源的容器引擎,能提供虚机化,从而达到隔离应用,可移植到任意安装有Docker的机器上运行,这对开发者来说是一个极大的福音。  由于工作上原因,最近准备开始使用Docker(公司装Docker的时候,linux server内核版本太低,需要重新编译)。  本文主要讲...

2014-12-07 11:19:30

阅读数:11719

评论数:0

Hive中跑MapReduce Job出现OOM问题分析及解决

一、引子今天在跑一段很复杂而且涉及数据量10年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不...

2014-11-21 20:02:47

阅读数:15208

评论数:0

sbt发布assembly解决jar包冲突问题 deduplicate: different file contents found in the following

一、问题定义最近在用sbt打assembly包时出现问题,在package的时候,发生jar包冲突/文件冲突问题,两个相同的class来自不同的jar包在classpath内引起冲突。具体是:我有一个self4j的jar, 还有一个hadoop-common-hdfs的jar包,其中hadoop-...

2014-11-20 20:48:48

阅读数:12020

评论数:3

Spark 常见问题小结

1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient ...

2014-11-06 19:43:02

阅读数:3288

评论数:0

Java GC 垃圾回收器的类型小结

JVM GC 垃圾回收器类型小结 JVM的垃圾回收器大致分为四种类型: 1、串行垃圾回收器 2、并行垃圾回收器 3、并发标记扫描垃圾回收器 4、G1垃圾回收器 1、串行垃圾回收器 串行垃圾回收器在进行垃圾回收时,它会持有所有应用程序的线程,冻结所有应用程序线程,使用单个垃圾回收线程来进行垃圾回...

2014-10-22 14:26:21

阅读数:4043

评论数:0

Java GC 概念小结

Java GC 介绍,Heap介绍,GC过程,回收机制。

2014-10-21 19:12:41

阅读数:3398

评论数:0

Spark SQL 源码分析之 In-Memory Columnar Storage 之 in-memory query

Spark SQL源码分析之如何查询cache后的table

2014-10-02 13:16:47

阅读数:5492

评论数:0

Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table

Spark SQL缓存到内存中的数据的存储策略

2014-09-25 18:20:23

阅读数:8852

评论数:0

Spark SQL UDF使用

spark sql udf编写及使用

2014-09-19 18:17:14

阅读数:14768

评论数:0

Spark SQL Catalyst源码分析之UDF

Spark SQL UDF 源码分析

2014-09-19 17:30:10

阅读数:7591

评论数:1

brew软件包管理利器

linuxbrew一款软件包管理工具 类似mac os 上的brew

2014-09-12 16:14:35

阅读数:2623

评论数:0

Spark Executor Driver资源调度小结

Spark中Executor的生成策略

2014-08-23 01:08:12

阅读数:18196

评论数:1

Run Test Case on Spark

本文讲述了如何运行Spark的测试用例

2014-08-14 19:03:43

阅读数:4558

评论数:1

Tachyon 分布式内存文件系统

随着分布式内存计算的升温,

2014-08-08 18:40:51

阅读数:5054

评论数:0

Spark的应用程序执行模型

Spark应用程序编写,执行应该注意的问题。

2014-08-05 19:18:47

阅读数:3200

评论数:0

scala eclipse sbt 应用程序开发

在Eclipse里利用Sbt构建开发Scala程序的一般步骤,并用实例讲解了整个流程。

2014-08-04 01:29:38

阅读数:11869

评论数:0

Spark SQL 源码分析之Physical Plan 到 RDD的具体实现

Spark SQL 物理计划到 RDD 的计算过程实现。

2014-07-29 18:04:09

阅读数:6988

评论数:0

Spark SQL Catalyst源码分析之Physical Plan

Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。

2014-07-28 18:42:33

阅读数:8408

评论数:0

Spark SQL Catalyst源码分析之Optimizer

Spark SQL 中Catalyst的核心优化器Optimizer源码剖析

2014-07-25 19:20:05

阅读数:6953

评论数:0

Spark SQL Catalyst源码分析之TreeNode Library

Spark SQL Catalyst的核心类库TreeNode详解,配有实例,图文并茂。

2014-07-24 16:05:36

阅读数:7326

评论数:1

Spark SQL Catalyst源码分析之Analyzer

本文详细介绍了Spark SQL的Catalyst里,Analyzer是如何Sql parser的解析的UnResolved逻辑计划,进行resolve的。

2014-07-22 00:24:01

阅读数:8101

评论数:0

Spark SQL Catalyst源码分析之SqlParser

本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成UnResolved LogicalPlan的。

2014-07-19 03:16:11

阅读数:12617

评论数:7

Spark SQL源码分析之核心流程

从源代码的角度来看一下Spark SQL的核心执行流程吧

2014-07-10 18:11:01

阅读数:14559

评论数:6

Spark SQL with Hive

Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。

2014-07-09 22:29:46

阅读数:14091

评论数:0

Spark SQL 初探

早在Spark Submit 2013里就有介绍到Spark SQL,不过更多的是介绍Catalyst查询优化框架。经过一年的开发,在今年Spark Submit 2014上,Databricks宣布放弃Shark 的开发,而转投Spark SQL,理由是Shark继承了Hive太多,优化出现了瓶...

2014-07-02 19:13:20

阅读数:7934

评论数:0

Spark操作hbase

在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。  企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。 ...

2014-07-01 01:28:21

阅读数:18579

评论数:9

Spark机器学习库mllib之协同过滤

很久就想写一篇ML的实践文章,虽然看过肯多资料,总觉得纸上谈兵印象不深刻,过不了多久就忘了,现在就借Spark的Mllib来简单的实际一下推荐算法吧。       说起推荐算法,大家耳熟能详的就是CF(协同过滤),这次就拿CF中ALS(alternating least squares),交替最小...

2014-06-25 18:01:33

阅读数:9748

评论数:2

Shark性能测试

Shark性能测试

2014-06-25 15:25:37

阅读数:2795

评论数:0

Hive中reduce个数设定

Hive中reduce个数设定原理解析

2014-06-24 14:46:30

阅读数:6929

评论数:1

About Me

角色名 : 盛利 职业 : Hadoop研发,数据库开发 gongcheng

2014-06-23 18:47:17

阅读数:1850

评论数:0

推荐算法总结Recommendation

目前为止,推荐算法有好多种,比较常见的有协同过滤,但是其它的推荐算法zai

2014-06-23 17:12:40

阅读数:4561

评论数:0

Shark运维常见问题

Shark部署常见问题 1、readObject can't find class org.apache.hadoop.hive.conf.HiveConf org.apache.spark.SparkException: Job aborted: Task 0.0:3 failed 4 time...

2014-06-18 18:10:15

阅读数:4163

评论数:0

Shark集群搭建配置

Shark是基于Spark与Hive之上的一种SQL查询引擎,本文将带你搭建Shark集群

2014-06-17 18:05:37

阅读数:3701

评论数:0

Hive数据翻倍总结

1. 本来8千万的数据和8千万的数据一下join后,变成了30亿。。 2.

2014-05-23 18:53:56

阅读数:2277

评论数:1

spark in eclipse---Spark学习笔记3

想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包 victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse [INFO] Scanning...

2014-05-20 11:45:43

阅读数:5255

评论数:2

Lateral View用法 与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。 1

2014-05-16 19:11:26

阅读数:15385

评论数:2

Spark实例TopN---Spark学习笔记11

Spark是基于内存的分布式计算框架,性能是shi

2014-05-14 18:06:17

阅读数:9779

评论数:5

协同过滤 --- 数据挖掘学习笔记

Recommendation 参考文献:collective intelligence

2014-05-09 16:17:22

阅读数:2118

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭