hadoop
弱理想
喂马、砍柴、周游世界
展开
-
MapReduce2.0原理,基本架构面试相关
一、MapReduce基本概念的理解1、HDFS block和MapReduce split之间的联系?两者之间是否存在严格的对应关系?答:Block:HDFS中最小的数据存储单位,默认是64M;Split:MapReduce中最小的计算单元,默认与Block一一对应。两者的对应关系是任意的,可有用户控制。2、假设HDFS的block大小为64M,采用TextInputFormat原创 2015-02-18 12:28:04 · 1149 阅读 · 0 评论 -
CDH4 CM启动NameNode失败的问题,请求超时
今天上班cdh集群出现日志把系统磁盘空间占满的问题,cdh集群宕机,清理掉日志之后使用CM界面无法启动NameNode,提示请求超时,及下面的信息Service did not start successfully; not all of the required roles started: Service hdfs1 does not have sufficient running Nam原创 2015-09-21 14:06:52 · 1673 阅读 · 0 评论 -
解析Cloudera Manager(CDH5)内部结构、功能包括配置文件、目录位置等
问题导读 1.CM的安装目录在什么位置?2.hadoop配置文件在什么位置?3.Cloudera manager运行所需要的信息存在什么位置?4.CM结构和功能是什么? ====================================================1. 相关目录 ? /var/log/cloudera-scm-installer : 安装日转载 2015-08-10 21:14:40 · 2777 阅读 · 0 评论 -
MapReduce获取键的分布情况
怎样建立一个一系列分布非常均匀的分区?通过对键空间进行采样,就可较为均匀的划分数据集。采样的核心思想是只查看一小部分键,获得键的近似分布,并由此构建分区。Hadoop已经内置了若干采样器,不需要用户自己编写。InputSampler类实现了Sampler接口,该接口唯一成员方法(getSampler)有两个输入参数(一个InputFormat对象和一个Job对象),返回一系列样本键:public i原创 2015-06-12 14:20:34 · 395 阅读 · 0 评论 -
hadoop2.4.1集群环境搭建
1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆 6.安装JDK,配置环境变量等集群规划: 主机名 IP 安装的软件 运行原创 2015-05-01 19:21:05 · 410 阅读 · 0 评论 -
hive文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式 例如:[plain] view plaincopy 01.> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 02.> ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ 03.> STORED AS T转载 2015-05-03 22:04:05 · 439 阅读 · 0 评论 -
Hadoop2.6.0在Ubuntu Kylin14.04上的配置
环境: 系统:Ubuntu Kylin 14.04LTS版本(不得不说,相比原始的系统,这个中国定制版麒麟实在是好看和好用多了) Hadoop 2.6.0 jdk1.8.0_25步骤: 1. 创建Hadoop用户 创建用户1sudo useradd hadoop转载 2015-02-17 17:53:18 · 434 阅读 · 0 评论 -
hadoop2 hdfs命令
Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ... 可同时上传多个文件到HDFS里面 2. hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4. hdfs df转载 2015-02-18 15:15:51 · 649 阅读 · 0 评论 -
hive对科学计数法字符串的转换
Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,例如:hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示,只是一个习惯问题,结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计数法表示的字符串而非转载 2015-11-17 10:38:40 · 15829 阅读 · 1 评论