2014年02月_常飞梦

11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载 linux大内存页 HugePages on Linux

HugePages on Linux HugePages是linux内核的一个特性，使用hugepage可以用更大的内存页来取代传统的4K页面。使用HugePage主要带来如下好处 1，没有swap。Notswappable: HugePages are not swappable. Therefore there is no page-in/page-outmechanis

2014-02-28 11:20:02 1571

原创 Oracle 11g 新聚集函数listagg实现列转行

这是一个Oracle的列转行函数：LISTAGG() 示例代码：with temp as( select 'China' nation ,'Guangzhou' city from dual union all select 'China' nation ,'Shanghai' city from dual union all select 'China'

2014-02-27 16:22:28 6982 1

转载如何在Hadoop中控制Map的数量

很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于HDFS的blockSize，那么会造成启动的Mapper等于文件的数量（即每个文件都占据了一个block），那么很可能造成启动的Mapper数量超出限制而导

2014-02-22 21:08:24 1285

转载 Hive深入浅出

Hive是什么1) Hive是什么？这里引用 Hive wiki 上的介绍：Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on th

2014-02-21 15:01:36 1442

原创 hive函数参考手册

原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败，因为无效的语

2014-02-18 13:45:08 1465

原创 Hive日期格式转换用法

1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳（从1970-01-0100:00:00 UTC到指定时间的秒数）到当前时区的时间格式举例：hive> select from_unixtime(1323308943,'

2014-02-18 13:32:07 160296 1

转载 Hive与数据库的异同

摘要：由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述Hive和

2014-02-17 15:21:18 1427

原创 hive学习笔记之-使用Sqoop把Oracle表导入Hive

安装环境：Hive: hive-0.11.0Hadoop: Hadoop 1.2.1Sqoop: sqoop-1.4.4.bin__hadoop-1.0.0Oralce driver: ojdbc6.jar软件下载：Hive: http://apache.dataguru.cn/hive/Hadoop: http://apache.dataguru.cn/had

2014-02-14 17:26:31 14081 2

原创 Sqoop使用和简介

Sqoop 工具是hadoop环境下连接关系数据库，和hadoop存储系统的桥梁，支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下，关系数据表存在于线上环境的备份环境，需要每天进行数据导入，根据每天的数据量而言，sqoop可以全表导入，对于每天产生的数据量不是很大的情形可以全表导入，但是sqoop也提供了增量数据导入的机制。下面介绍几个常用的sqoop的命令，以及一些参

2014-02-14 17:10:39 7716

原创 Hadoop 添加数据节点（datanode）

前提条件：安装jdk-6u18 实现目的：在hadoop集群中添加一个新增数据节点。 1. 创建目录和用户mkdir /app/hadoopusergroup hadoopuseradd licz -ghadoop -d /app/hadoopchownlicz:hadoop /app/hadoop 2. 修改环境变量[licz@serve

2014-02-12 14:46:12 20105

原创 hadoop学习笔记-生产环境hadoop集群安装

生产环境Hadoop大集群完全分布式模式安装2013-3-7 安装环境操作平台：vmware2操作系统：Oracle Enterprise Linux 5.6软件版本：hadoop-0.22.0,jdk-6u18集群架构：3+ node，master node(hotel01),slave node(hotel02,hotel03…)主机名

2014-02-12 09:42:21 1975

原创 hive学习笔记之--hive index

Hive中可以创建Index。索引是标准的数据库技术，hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式，而是提供插入式接口，并且提供一个具体的索引实现作为参考。hive索引具有以下特点：1.索引key冗余存储，提供基于key的数据视图2.存储设计以优化查询&检索性能3.对于某些查询减少IO，从而提高性能。

2014-02-10 16:00:12 3840

转载 Hive学习笔记之--Hive 高级编程

第一部分：产生背景产生背景为了满足客户个性化的需求，Hive被设计成一个很开放的系统，很多内容都支持用户定制，包括：•文件格式：Text File，Sequence File•内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text•用户提供的 map/reduce 脚本：不管什么语言，利用 stdin/

2014-02-07 14:59:56 6894