Cccrab-CSDN博客

翻译 hive map side join

hive map side join If all but one of the tables being joined are small, the join can be performed as a map only job. The querySELECT /*+ MAPJOIN(b) */ a.key, a.value

2016-05-13 14:12:14 492

翻译 hive left semi join

SELECT nameFROM table_1 a INNER JOIN table_2 b ON a.name=b.nameSELECT nameFROM table_1 a LEFT SEMI JOIN table_2 b ON (a.name=b.name)difference between inner join and left semi join:hiv

2016-05-13 11:25:43 682

翻译 scala——traits

Traits, 类似于java中的接口，是用来定义object的方法。类似JAVA 8,在scala中，traits中的方法不是必须全部实现，可以为某个方法定义好默认的方法体，如：trait Similarity { def isSimilar(x: Any): Boolean def isNotSimilar(x: Any): Boolean = !isSimilar(x)}

2016-05-07 22:56:59 435

翻译 scala tutorial_class

class Point(xc: Int, yc: Int) { var x: Int = xc var y: Int = yc def move(dx: Int, dy: Int) { x = x + dx y = y + dy } override def toString(): String = "(" + x + ", " + y + ")";}以上定义

2016-05-07 17:54:31 342

翻译 scala tutorial

1 scala的面向对象：在scala中，万物皆对象。通过class和traits来定义对象的类型和行为。2 函数式 scala：scala死一种函数式编程语言，其中任何函数都表示一个值，其可以通过轻量级的语法定义匿名函数，并且支持函数间的值传递，递归调用以及柯里化currying.3 unified types:在scala中，所有的值和函数都是object.如下图展示的sc

2016-05-07 11:23:01 505

翻译 join

INNER JOIN: in an inner join, records are discarded unless join criteria finds matching records in every table being joined.inner join,仅当数据在join两端都出现时，才会留下来；Most of time,Hive will use a separate

2016-04-20 18:14:27 240

转载 hive 子查询、union 、left join

建表语句：create table tb_in_base( id bigint, devid bigint, devname string ) partitioned by (job_time bigint) row format delimited fields terminated by ',';create table tb_i

2016-02-18 11:02:34 983

转载 Schema on Read vs Schema on Write

Schema on Read vs Schema on Write in Business IntelligenceWhen starting build out a new BI strategy. There are more options now than ever before. Gone are the days of just creating a massive sta

2016-02-17 21:01:30 1945

转载六款大数据采集平台的架构分析

随着大数据越来越被重视，数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台：Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集任何完整的大数据平台，一般包括以下的几个过程：数据采集数据存储数据处理数据展现（可视化，报表和监控）其中，数据采集是所有数据系统必

2016-01-25 10:22:24 13919 1

翻译深入浅出统计学

Pie charts :when are pie charts useful?Pie charts can be useful if you want to compare basic proportions,it is usually easy to tell at a glance which groups has a high frequency,compared with oth

2016-01-20 18:07:32 532

转载 LZO,LZOP

在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间，不仅如此，lzo是基于block分块的，这样他就允许数据被分解成chunk，并行的被hadoop处理。这样的特点，就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的，所以当数据为text格式时，用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequence

2016-01-12 10:02:14 3998

转载 Map side join

1、原理：之所以存在reduce side join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。但 Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。Map side join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。

2016-01-06 17:17:16 472

翻译 Mapreduce pattern(chapter3)

A single reducer getting a lot of data is bad for a few reasons:单独一个需要大量数据的reduce任务所带来的问题1 The sort can become an expensive operation when it has too many records and has to do most of the sorting

2016-01-05 11:38:12 287

转载 oozie ErrorCode 含义

E0000(XLog.STD, "System property 'oozie.home.dir' not defined"),E0001(XLog.OPS, "Could not create runtime directory, {0}"),E0002(XLog.STD, "System is in safe mode"),E0003(XLog.OPS, "Oozie home d

2016-01-01 11:11:30 1506

转载 MapReduce 调优

Job Tracker Related严格来说，下面这个配置项，是决定HDFS文件block数量的多少(也就是文件个数)，但是它会间接的影响Job Tracker的调度和内存的占用(其实更能影响name node内存的使用)。dfs.block.sizemapred.map.tasks.speculative.execution=truemapred.red

2015-12-25 12:43:19 186

转载 mapreduce优化

mapreduce程序效率的瓶颈在于两点：　　1：计算机性能　　2：I/O操作优化优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略：　　1：输入的文件尽量采用大文件　　　　众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用ConbinFileInp

2015-12-25 12:39:14 234

转载 Spring MVC Return

import java.util.HashMap;import java.util.Map;import org.springframework.stereotype.Controller;import org.springframework.ui.Model;import org.springframework.web.bind.annotation.RequestMapping;i

2015-12-22 23:08:07 276

转载 Hadoop 2.0 – HA功能中ZKFC对NN状态的控制

1.基本原理zk的基本特性：(1) 可靠存储小量数据且提供强一致性(2) ephemeral node, 在创建它的客户端关闭后，可以自动删除(3) 对于node状态的变化，可以提供异步的通知(watcher)zk在zkfc中可以提供的功能：(1) Failure detector: 及时发现出故障的NN，并通知zkfc(2) Active node locat

2015-12-13 20:59:59 335

转载 Hadoop2.0的HA介绍

1 概述在hadoop2.0之前，namenode只有一个，存在单点问题（虽然hadoop1.0有secondarynamenode，checkpointnode，buckcupnode这些，但是单点问题依然存在），在hadoop2.0引入了HA机制。hadoop2.0的HA机制官方介绍了有2种方式，一种是NFS（Network File System）方式，另外一种是QJM（Quoru

2015-12-13 20:41:59 227

转载 linux mount

在Linux下访问Windows分区在Linux中，如果你要使用储存设备 (Mo、硬盘、光驱等) ，就得先将它挂上 (Mount)，而当储存设备挂上了之后，就可以把它当成一个目录来进行访问。挂上一个设备使用mount命令。在使用mount这个指令时，至少要先知道下列三种信息： 1. 要Mount对象的文件系统类型？ (File system type) 2. 要Mount对

2015-12-13 11:10:21 218

转载每天一个linux命令（4）：mkdir命令

linux mkdir 命令用来创建指定的名称的目录，要求创建目录的用户在当前目录中具有写权限，并且指定的目录名不能是当前目录中已有的目录。1．命令格式：mkdir [选项] 目录...2．命令功能：通过 mkdir 命令可以实现在指定位置创建以 DirName(指定的文件名)命名的文件夹或目录。要创建文件夹或目录的用户必须对所创建的文件夹的父文件夹具有写权限。并且

2015-12-13 11:05:20 176

u010299467的专栏