hadoop
文章平均质量分 58
usure_liunian
这个作者很懒,什么都没留下…
展开
-
安装hadoop2.6.0前的linux环境准备
hadoop要求jdk必须是oracle版的,而且不低于1.7。我使用的linux是centos6.5默认安装了openjdk而且版本为1.6。所有要先卸载自带的openjdk、再安装高版本的jdk、除此之外、由于hadoop生态圈需要使用的端口很多,为了方便我是直接关闭防火墙,并修改selinux配置文件、配置ssh免密码登录等等、修改主机名、配置hosts文件等等。原创 2016-03-30 14:07:59 · 155 阅读 · 0 评论 -
Impala执行create table as select(ctas)时报错
今天,在Impala中执行create table tb_test5 as select * from tb_test时报错,报错为: mpala日志文件异常截图为:分析上面日志,重点在于这一句:Impala does not have WRITE access to 'file:/' intable: default.tb_test5原因在于创原创 2016-04-14 17:14:26 · 874 阅读 · 0 评论 -
关于Hive的三种模式
原文链接为:关于hive三种模式 《hadoop权威指南 第二版》374页这张图1.上方描述的是内嵌模式,特点是:hive服务和metastore服务运行在同一个进程中,derby服务也运行在该进程中。该模式无需特殊配置2.中间是本地模式,特点是:hive服务和metastore服务运行在同一个进程中,mysql是单独的进程,可以在同一台机器上,也可以在远程机器上。转载 2016-04-14 11:34:21 · 736 阅读 · 0 评论 -
hadoop集群namenode状态变成standy后如何手动切换状态
有时候通过网页访问两个namenode的http-address,看到默认的主namenode状态变成了standy,这时可以通过下面命令来实现主namenode的状态切换成active。$HADOOP_HOME/bin/hdfs haadmin -failover --forcefence --forceactive nn2 nn1注意:此处“nn2 nn1”的顺序表示activ原创 2016-04-26 13:28:32 · 1068 阅读 · 0 评论 -
Hive内部表和外部表的区别
内部表:在创建的时候不需要加载数据,数据时后期load进去的,如果是本地load,不会剪切数据,如果是从hdfsload,将会将hdfs的数据剪切过去。删除内部表的时候,将数据和元数据同时删除。 外部表:在创建表的时候需要加载数据,但是后期不需要load数据,数据不会有移动过程。删除外部表的时候,不会删除数据,只会删除元数据。原创 2016-04-26 18:15:03 · 154 阅读 · 0 评论 -
Hadoop回收站Trash机制
Hadoop2.6.0的回收站Trash机制跟Hadoop1变化不大,建议提前打开该功能(默认关闭),防止误删时欲哭无泪。1、修改/etc/hadoop/core-site.xml,增加如下配置: 开启hdfs文件删除自动转移到垃圾箱,值为垃圾箱文件清除时间,单位是分钟。一般开启该配置比较好,防止删除重要文件。--> fs.trash.interv原创 2016-04-26 13:40:19 · 286 阅读 · 0 评论 -
flume1.6.0安装
1.1、flume是什么 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume初始的发行版本目前被统称为 Flume OG(original generation,原创世纪),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume O原创 2016-04-07 19:26:25 · 174 阅读 · 0 评论 -
hadoop2-hdfs高可用原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器原创 2016-05-20 12:02:43 · 242 阅读 · 0 评论