hadoop
文章平均质量分 83
hopezhangbo
这个作者很懒,什么都没留下…
展开
-
Hadoop安装配置
1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Hadoop的集群转载 2014-06-19 14:53:40 · 419 阅读 · 0 评论 -
Apache Hadoop 2.2.0 HDFS HA + YARN多机部署
部署逻辑架构:HDFS HA部署物理架构注意:JournalNode使用资源很少,即使在实际的生产环境中,也是把JournalNode和DataNode部署在同一台机器上;生产环境中,建议主备NameNode各单独一台机器。YARN部署架构:个人实原创 2015-03-13 10:37:10 · 378 阅读 · 0 评论 -
Hadoop2.2 HA安装
hdfs-site.xml 配置:1. dfs.nameservices :配置nameservice的逻辑名称,与core-site.xml里fs.defaultFS配置的对应 dfs.nameservices mycluster2. dfs.ha.namenodes.[nameservice ID] :在nameservice中给每个Na原创 2015-03-13 10:37:05 · 318 阅读 · 0 评论 -
使用hive来分析json格式数据
如果了解hive的load data原理的话,还有一种更简便的方式,可以省去load data这一步,就是直接将sink1.hdfs.path指定为hive表的目录。下面我将详细描述具体的操作步骤。我们还是从需求驱动来讲解,前面我们采集的数据,都是接口的访问日志数据,数据格式是JSON格式如下:{"requestTime":1405651379758,"requestPar原创 2015-03-20 16:22:07 · 3486 阅读 · 1 评论 -
hive merge小文件
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.原创 2015-03-20 16:22:42 · 363 阅读 · 0 评论 -
spark SQL Running the Thrift JDBC/ODBC server
Running the Thrift JDBC/ODBC server1:运行./sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=feng02 --master spark://feng02:70原创 2015-03-27 14:45:02 · 1394 阅读 · 0 评论 -
cloudera impala 源码编译
cloudera impala 是一个运行在HDFS 和 HBase 上的执行分布式查询的引擎。该源是我们内部开发版本的一个快照,我们会定期进行版本更新。这个README文档描述了怎样利用该源来构建Cloudera impala,更多的文档请看这里:https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+原创 2015-02-27 17:52:39 · 896 阅读 · 0 评论 -
overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。 •如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。原创 2014-12-10 17:56:00 · 591 阅读 · 0 评论 -
Hadoop --MapReduce2 - 群集设置
目的 本文档描述了如何在多个节点以及大集群中数千个节点进行安装,配置和管理Hadoop集群。 先决条件 在Apache官网站点下载的Hadoop的稳定版本。安装 安装Hadoop集群通常需要在所有集群计算机上的解压软件hadoop软件包或安装的RPM。通常,集群中一台机器被指定为NameNode和另一台机器的作为的ResourceManager,独立存在的。这两台集原创 2014-12-11 17:57:47 · 519 阅读 · 0 评论 -
Hive数据导入和导出
1/hive数据导出 很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid原创 2014-12-10 16:32:30 · 436 阅读 · 0 评论 -
使用java api操作HDFS文件
全部程序如下:[java] view plaincopyprint?import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuration; import org原创 2014-12-09 14:55:45 · 466 阅读 · 0 评论 -
Hive基本命令整理
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n原创 2014-12-22 15:13:12 · 380 阅读 · 0 评论 -
hive 创建/删除/截断 表(翻译自Hive wiki)
简单的创建表create table table_name ( id int, dtDontQuery string, name string) 创建有分区的表create table table_name ( id int, dtDon原创 2014-12-05 17:48:00 · 414 阅读 · 0 评论 -
hive中partition如何使用
网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用原创 2014-12-05 17:46:57 · 409 阅读 · 0 评论 -
hive创建数据库
Databases in Hive1.如果在hive中未定义数据库的话,这个“default”作为默认的数据库。2.创建数据库的语法很简单:hive> create databasefinancials; 如果financials存在的话,就会抛出错误,可以这样:hive> create databases IF NOT EXISTS financials;3原创 2014-12-05 16:25:32 · 3529 阅读 · 0 评论 -
【hive实战】使用hive分析 hadoop 日志
http://www.cnblogs.com/linjiqin/archive/2013/03/07/2948078.html实战2——Hadoop的日志分析1). 日志格式分析首先分析 Hadoop 的日志格式, 日志是一行一条, 日志格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: 2013-03-06 15:23:48,132 INF原创 2014-12-04 16:36:32 · 529 阅读 · 0 评论 -
向Hive程序传递变量的三种方法
图 1 外部向Hive程序中传递变量的方法使用Hive编写程序最常用的方法是将Hive语句写到文件中,然后使用hive -f filename.hql来批量执行查询语句。经常需要将外部参数传入到hql语句中替换其中的变量来动态执行任务,比如动态设定数据库名、表名、时间值、字段序列等变量,以达到脚本泛化执行的目的。1) 方法1:字符串、正则、模板引擎等暴力方式替换最简原创 2015-01-06 17:14:58 · 1079 阅读 · 0 评论 -
hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St原创 2014-12-17 18:29:54 · 437 阅读 · 0 评论 -
HADOOP 2.2.0 HA搭建(现有集群,QJM方案)
HADOOP 2.2.0 HA搭建手册V1.0 *本文档分别阐述了给新建集群配置HA的方法(需要格式化namenode)以及给现有集群配置HA的方法(不需要格式化namenode),均使用QJM方案。一、机器情况angel110.2.0.101baby1810.1.1.38原创 2015-03-13 14:45:33 · 691 阅读 · 0 评论