- 博客(13)
- 资源 (6)
- 收藏
- 关注
转载 linux大内存页 HugePages on Linux
HugePages on Linux HugePages是linux内核的一个特性,使用hugepage可以用更大的内存页来取代传统的4K页面。使用HugePage主要带来如下好处 1,没有swap。Notswappable: HugePages are not swappable. Therefore there is no page-in/page-outmechanis
2014-02-28 11:20:02 1571
原创 Oracle 11g 新聚集函数listagg实现列转行
这是一个Oracle的列转行函数:LISTAGG() 示例代码:with temp as( select 'China' nation ,'Guangzhou' city from dual union all select 'China' nation ,'Shanghai' city from dual union all select 'China'
2014-02-27 16:22:28 6982 1
转载 如何在Hadoop中控制Map的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导
2014-02-22 21:08:24 1285
转载 Hive深入浅出
Hive是什么1) Hive是什么?这里引用 Hive wiki 上的介绍:Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on th
2014-02-21 15:01:36 1442
原创 hive函数参考手册
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败,因为无效的语
2014-02-18 13:45:08 1465
原创 Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'
2014-02-18 13:32:07 160296 1
转载 Hive与数据库的异同
摘要:由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和
2014-02-17 15:21:18 1427
原创 hive学习笔记之-使用Sqoop把Oracle表导入Hive
安装环境:Hive: hive-0.11.0Hadoop: Hadoop 1.2.1Sqoop: sqoop-1.4.4.bin__hadoop-1.0.0Oralce driver: ojdbc6.jar软件下载:Hive: http://apache.dataguru.cn/hive/Hadoop: http://apache.dataguru.cn/had
2014-02-14 17:26:31 14081 2
原创 Sqoop使用和简介
Sqoop 工具是hadoop环境下连接关系数据库,和hadoop存储系统的桥梁,支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以全表导入,对于每天产生的数据量不是很大的情形可以全表导入,但是sqoop也提供了增量数据导入的机制。下面介绍几个常用的sqoop的命令,以及一些参
2014-02-14 17:10:39 7716
原创 Hadoop 添加数据节点(datanode)
前提条件:安装jdk-6u18 实现目的:在hadoop集群中添加一个新增数据节点。 1. 创建目录和用户mkdir /app/hadoopusergroup hadoopuseradd licz -ghadoop -d /app/hadoopchownlicz:hadoop /app/hadoop 2. 修改环境变量[licz@serve
2014-02-12 14:46:12 20105
原创 hadoop学习笔记-生产环境hadoop集群安装
生产环境Hadoop大集群完全分布式模式安装2013-3-7 安装环境操作平台:vmware2操作系统:Oracle Enterprise Linux 5.6软件版本:hadoop-0.22.0,jdk-6u18集群架构:3+ node,master node(hotel01),slave node(hotel02,hotel03…)主机名
2014-02-12 09:42:21 1975
原创 hive学习笔记之--hive index
Hive中可以创建Index。 索引是标准的数据库技术,hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式,而是提供插入式接口,并且提供一个具体的索引实现作为参考。hive索引具有以下特点:1.索引key冗余存储,提供基于key的数据视图2.存储设计以优化查询&检索性能3.对于某些查询减少IO,从而提高性能。
2014-02-10 16:00:12 3840
转载 Hive学习笔记之--Hive 高级编程
第一部分:产生背景产生背景为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括:•文件格式:Text File,Sequence File•内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text•用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/
2014-02-07 14:59:56 6894
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人