- 博客(15)
- 资源 (1)
- 收藏
- 关注
转载 Hive SQL执行计划深度解析
转载:http://tech.meituan.com/hive-sql-to-mapreduce.html分类: hadoop&hive2014-06-17 11:12 25人阅读 评论(0) 收藏 举报目录(?)[+]美团网技术陈纯大作,值得拥有。Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基
2015-01-22 22:51:11 1027
转载 HIVE 窗口及分析函数
原文转载自:http://www.07net01.com/linux/HIVE_chuangkoujifenxihanshu_yingyongchangjing_532180_1373989446.html窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询一、分析函数用于等级、百分点、n分片等。
2015-01-12 14:07:36 631 1
转载 MapReduce中两表join的几种方案
转载自:http://my.oschina.net/leejun2005/blog/95186原文本未删改。1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后
2014-12-12 16:14:13 730
转载 Hive 基础之:分区、桶、Sort Merge Bucket Join
转载自:http://blog.csdn.net/wisgood/article/details/17186107#t5目录(?)[-]Hive 分区表实现细节语法Hive 桶创建带桶的 table强制多个 reduce 进行输出往表中插入数据查看表的结构读取数据看每一个文件的数据对桶中的数据进行采样查询一半返回的桶数举个完整的小例子1建st
2014-12-12 14:17:58 411
转载 hive 桶相关特性分析
1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。 2. 桶作用
2014-12-12 14:14:57 410
转载 Hadoop的Partition解析
目录(?)[-]解析Partition代码实例1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,
2014-12-03 13:26:00 431
转载 BloomFilter 简介及在 Hadoop reduce side join 中的应用
BloomFilter 简介及在 Hadoop reduce side join 中的应用 1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所有位标为0, A={x1, x2, x3,…,xm} (x1
2014-12-02 17:03:38 613
原创 FAILED: Error in metadata: MetaException(message:Got exception: java.net.ConnectException Call to ha
这个必须记一笔:今天在安装配置完hive后,进入了hive的命令行执行show databases时抛出一下错误:FAILED: Error in metadata: MetaException(message:Got exception: java.net.ConnectException Call to hadoop0/192.168.0.10:9000 failed on c
2014-12-01 20:15:19 1074
转载 Hive的基本原理与使用
Hive的基本原理与使用本文转自:http://tiechou.info/?p=33简介Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。Hive可以将结构化的数据存储在数据仓库中,通过自己的SQL去查询分析需要的内容,这套SQL简称Hive SQL。它与关系型数据库的SQL略有不同,但支持了
2014-11-25 15:51:57 546
转载 (转)spring中properties文件的读取
实际项目中,通常将一些可配置的定制信息放到属性文件中(如数据库连接信息,邮件发送配置信息等),便于统一配置管理。例中将需配置的属性信息放在属性文件/WEB-INF/configInfo.properties中。 其中部分配置信息(邮件发送相关): Java代码 #邮件发送的相关配置 email.host = smtp.163.com email.p
2014-10-23 17:45:35 427
转载 spring四种依赖注入方式
spring有多种依赖注入的形式,下面仅介绍spring通过xml进行IOC配置的方式:Set注入这是最简单的注入方式,假设有一个SpringAction,类中需要实例化一个SpringDao对象,那么就可以定义一个private的SpringDao成员变量,然后创建SpringDao的set方法(这是ioc的注入入口):Java代码 packag
2014-10-21 10:49:20 367
转载 【转】 mybatis实战教程(mybatis in action),mybatis入门到精通
一下内容目录(?)[+]转自:http://www.yihaomen.com/article/java/302.htm(读者注:其实这个应该叫做很基础的入门一下下,如果你看过Hibernate了那这个就非常的简单)(再加一条,其实大家可以看官方的教程更好些:http://mybatis.github.io/mybatis-3/,而且如果英文不是很
2014-10-15 13:51:33 577
转载 EasyMock 使用方法与原理剖析(转)
EasyMock 使用方法与原理剖析EasyMock 是一套通过简单的方法对于指定的接口或类生成 Mock 对象的类库,它能利用对接口或类的模拟来辅助单元测试。本文将对 EasyMock 的功能和原理进行介绍,并通过示例来说明如何使用 EasyMock 进行单元测试。6 评论:郑 闽睿 (zhengmr@cn.ibm.com), 软件工程师, I
2014-10-13 19:01:46 637
转载 Oralce数据库的优化(转)
(1) 选择最有效率的表名顺序(只在基于规则的优化器中有效):ORACLE 的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表 (intersection table)作为基础表, 交叉表是
2014-10-06 17:49:42 442
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人