- 博客(10)
- 资源 (2)
- 收藏
- 关注
原创 Hive基本命令整理
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样 hive> create table n
2014-12-22 15:13:12 380
原创 hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/St
2014-12-17 18:29:54 437
原创 Hadoop --MapReduce2 - 群集设置
目的 本文档描述了如何在多个节点以及大集群中数千个节点进行安装,配置和管理Hadoop集群。 先决条件 在Apache官网站点下载的Hadoop的稳定版本。 安装 安装Hadoop集群通常需要在所有集群计算机上的解压软件hadoop软件包或安装的RPM。 通常,集群中一台机器被指定为NameNode和另一台机器的作为的ResourceManager,独立存在的。这两台集
2014-12-11 17:57:47 519
原创 overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果: •目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。 •如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。
2014-12-10 17:56:00 591
原创 Hive数据导入和导出
1/hive数据导出 很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid
2014-12-10 16:32:30 436
原创 使用java api操作HDFS文件
全部程序如下: [java] view plaincopyprint? import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org
2014-12-09 14:55:45 466
原创 hive 创建/删除/截断 表(翻译自Hive wiki)
简单的创建表 create table table_name ( id int, dtDontQuery string, name string ) 创建有分区的表 create table table_name ( id int, dtDon
2014-12-05 17:48:00 414
原创 hive中partition如何使用
网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用
2014-12-05 17:46:57 409
原创 hive创建数据库
Databases in Hive 1.如果在hive中未定义数据库的话,这个“default”作为默认的数据库。 2.创建数据库的语法很简单: hive> create databasefinancials; 如果financials存在的话,就会抛出错误,可以这样: hive> create databases IF NOT EXISTS financials; 3
2014-12-05 16:25:32 3529
原创 【hive实战】使用hive分析 hadoop 日志
http://www.cnblogs.com/linjiqin/archive/2013/03/07/2948078.html 实战2——Hadoop的日志分析 1). 日志格式分析 首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2013-03-06 15:23:48,132 INF
2014-12-04 16:36:32 529
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人