Bigdatda-Hadoop1.0
文章平均质量分 60
礼彬fly
这个作者很懒,什么都没留下…
展开
-
hadoop面试题答案
hadoop面试题答案Hadoop 面试题,看看书找答案,看看你能答对多少(2)1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)转载 2014-10-16 12:28:31 · 2237 阅读 · 0 评论 -
mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2015-03-15 20:59:44 · 907 阅读 · 0 评论 -
ubuntu-12.04.5-desktop-amd64 安装和基本配置
ubuntu-12.04.5-desktop-amd64安装和基本配置1、选择中文(简体),安装ubuntu:2、下面两个勾打上,点击继续: 3、清除整个磁盘,点击继续:4、点击现在安装: 5、系统自动复制文件: 6、选择时区,哈尔滨就行: 7、选择语言,汉语:8、设置用户和密码: 9、复制文件:原创 2015-01-23 20:30:45 · 5573 阅读 · 0 评论 -
伪分布式集群环境hadoop、hbase、zookeeper搭建(全)
环境说明 1、操作系统centos 6.52、jdk-7u51-linux-x64.tar.gz hadoop-1.1.2.tar.gz hbase-0.94.7-security.tar.gz zookeeper-3.4.5.tar.gz设置IP地址设置静态ip执行[plain] view plaincopy转载 2015-02-12 20:36:56 · 2632 阅读 · 0 评论 -
ubuntu安装eclipse
ubuntu安装eclipse1、用到的软件:2、创建安装jdk 的文件目录:3、复制解压安装jdk:4、配置环境变量:配置内容:使配置生效:查看安装的jdk版本:5、创建安装eclipse 的文件目录:6、复制解压安装eclipse:查看安装的eclipse: 7、重启:必须的。。 8、设置项目保原创 2015-01-23 20:40:15 · 1747 阅读 · 1 评论 -
轻松搭建hadoop-1.2.1集群(3)--配置hadoop集群软件
轻松搭建hadoop-1.2.1集群(3)--配置hadoop集群软件 1、开始安装JDK和Hadoop:对jdk和hadoop进行解压:如果JDK是bin文件增加可执行权限:chmod u+x jdk-6u45-linux-x64.bin解压完毕: 2、对解压的软件文件夹改名: 3、在hadoop0主机上进行配置:配置JDK原创 2015-02-21 00:25:16 · 2075 阅读 · 0 评论 -
mapreduce_shuffle does not exist
mapreduce_shuffle does not exist 提交作业出现类似下面的错误: mapreduce_shuffle does not exist 解决办法: 在 yarn-site.xml 配置文件中增加: yarn.nodemanager.aux-services mapreduce_shuffle原创 2015-01-22 16:26:01 · 3291 阅读 · 0 评论 -
Hadoop数据类型
Hadoop数据类型 我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装,那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比:一、 Hadoop数据类型介绍:(1)在hadoop.io包,主要分为基本类型和转载 2015-02-19 01:22:22 · 2590 阅读 · 0 评论 -
轻松搭建hadoop-1.2.1集群--快速配置SSH免密码登陆
vmware快速配置SSH互相免密码登陆 1、启动三个准备好的Linux虚拟机系统: 2、在Windows的cmd里面ping通VMWare网卡IP: 在Windows的cmd里面ping通hadoop0: 在Windows的cmd里面ping通hadoop1: 在Windows的cmd里面ping通hadoop2:原创 2015-02-21 00:18:40 · 2823 阅读 · 0 评论 -
Hadoop集群动态增加一个节点
Hadoop集群动态增加一个节点 现在已经有一个hadoop cluster,并且两个slave节点为hadoop1、hadoop2,现在要动态增加一个新slave节点hadoop3。 1、配置新节点的环境 IP地址、主机名、防火墙、SSH、JDK、Hadoop 2、把新节点的hostname配置到主节点的slaves文件中hadoop0hadoop1hado原创 2015-02-21 21:55:14 · 1395 阅读 · 0 评论 -
把Hadoop源码关联到eclipse中
把Hadoop源码关联到eclipse中 ant下载地址:http://archive.apache.org/dist/ant/binaries/hadoop 下载地址:http://archive.apache.org/dist/hadoop/core/所有版本JDK下载地址: http://www.oracle.com/technetwork/java/archive原创 2015-02-16 20:32:21 · 1455 阅读 · 0 评论 -
Hadoop学习之SecondaryNameNode
在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到。SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程。其实不是,SecondaryNameNode是HDFS架构中的一个组成部分。它并不是元数据节点出现问题时的备用节点,它和元数据节点负责不同的事情。1、Seco转载 2015-03-15 21:01:17 · 890 阅读 · 0 评论 -
hadoop block split 区别
Hadoop权威指南(第三版)P31Hadoop divides the input to a MapReduce job into fixed-size pieces called inputsplits, or just splits. Hadoop creates one map task for each split, which runs the userdefinedm转载 2015-03-16 15:16:31 · 1813 阅读 · 0 评论 -
Hadoop面试45个题目及答案
Hadoop面试45个题目及答案转载 2014-10-16 12:36:53 · 811 阅读 · 0 评论 -
优酷面试题
mapred找共同朋友,数据格式如下A B C D E FB A C D EC A B ED A B EE A B C DF A第一字母表示本人,其他是他的朋友,找出有共同朋友的人,和共同朋友是谁 运行结果AB E:C:DAC E:BAD B:EAE C:B:DBC A:EBD转载 2015-07-06 17:33:31 · 1211 阅读 · 0 评论 -
hadoop面试题总结1
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode 在一转载 2015-07-03 17:26:11 · 1435 阅读 · 0 评论 -
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib转载 2015-07-04 20:51:38 · 899 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat 用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,Lon转载 2015-03-14 18:28:12 · 649 阅读 · 0 评论 -
MapReduce的shuffle过程
MapReduce的shuffle过程MapReduce的核心是shuffle,她对于mapreduce的效率起到了至关重要的作用,now,我把我对shuffle的理解过程简单介绍一下,如果有误还请指教阿。。MapReduce的过程(针对一个map来说):每个Map在内存中都有一个缓存区,map的输出结果会先放到这个缓冲区当中,缓冲区有一个spill percent,这转载 2015-03-14 17:49:05 · 761 阅读 · 0 评论 -
MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-03-14 17:33:09 · 930 阅读 · 0 评论 -
关于InputFormat的数据划分、Split调度、数据读取问题
转自:http://hi.baidu.com/_kouu/item/dc8d727b530f40346dc37cd1在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨转载 2015-03-14 14:14:55 · 741 阅读 · 0 评论 -
轻松搭建hadoop-1.2.1伪分布
轻松搭建hadoop-1.2.1伪分布 以CentOS为例: CentOS虚拟机安装:http://blog.csdn.net/baolibin528/article/details/32918565网络设置:http://blog.csdn.net/baolibin528/article/details/43797107PieTTY用法:http://blog.csdn.原创 2015-02-16 12:59:22 · 1639 阅读 · 0 评论 -
MapReduce源码分析之InputSplit分析
MapReduce源码分析之InputSplit分析前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,转载 2015-03-16 14:51:35 · 844 阅读 · 0 评论 -
hadoop-1.2.1集群配置搭建
hadoop-1.2.1集群配置搭建1、在 hadoop的conf 文件夹里面可以查看所有配置文件:2、需要配置的文件: 2.1 配置hadoop-env.sh: 2.2 配置core-site.xml: 2.3 配置hdfs-site.xml: 2.4 配置mapred-site.xml: 2.5 配置 ma原创 2015-02-03 13:50:35 · 863 阅读 · 0 评论 -
MapReduce 新旧WordCount 代码解读
一、就API转载 2014-08-21 19:36:06 · 827 阅读 · 0 评论 -
VirtualBox 安装 CentOS6.5 教程
VirtualBox 安装 CentOS6.5 教程原创 2014-06-21 12:57:00 · 2168 阅读 · 0 评论 -
在hadoop启动的时候,会出现各种各样的问题
在hadoop启动的时候,会出现各种各样的问题,NameNode,JobTracker等各个模块都会有莫名奇妙的问题出现,在这里对hdfs的问题进行一下简单的记录1:HDFS initialized but not 'healthy' yet, waiting...这个日志会在启动hadoop的时候在JobTracker的log日志文件中出现,在这里就是hdfs出现问题,导致DataNod转载 2014-09-08 13:59:28 · 1715 阅读 · 0 评论 -
ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/current
ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/currentERROR namenode.NameNode: java.io.IOException: Cannot remove current directory: /usr/local/hadoop/hd转载 2014-09-05 16:11:37 · 7109 阅读 · 0 评论 -
CentOS 6.5 伪分布安装
CentOS 6.5 伪分布安装软件准备 jdk-6u24-linux-i586.bin 、hadoop-1.2.1.tar.gz、hadoop-eclipse-plugin-1.2.1.jar 、 Eclipse-jee-indigo-SR2-linux-gtk.tar.gz假设: 所有软件压缩包都放在 /home/hadoop 文件夹下。 1、JD原创 2014-06-25 13:23:48 · 1263 阅读 · 0 评论 -
Eclipse运行wordcount步骤
Eclipse运行wordcount步骤 第一步:建立工程,导入代码。第二步:建立文件写入数据(以空格分开),并上传到hdfs上。1、创建文件并写入数据:2、上传hdfs在hadoop权限下就行:命令: hadoop fs -put 新建的文件路径 input目录 如: hadoop fs -put /home/hadoop原创 2014-06-25 13:53:32 · 4336 阅读 · 2 评论 -
hadoop学习之路----HDFS原理与基本架构总结(第二讲)
hadoop学习之路----HDFS原理与基本架构总结(第二讲)第二讲主要内容如下1.HDFS特点(也就是HDFS适用什么场景)2.HDFS缺点(也就是HDFS不适用什么场景)3.HDFS基本架构4.HDFS工作原理5.下一代HDFS介绍下面主要聊聊其中的各个部分1.HDFS特点(主要出自PPT)主要有以下五点高容错性 数据自动保存多个副本转载 2015-01-27 20:35:38 · 1763 阅读 · 0 评论 -
Hadoop学习之路----生态系统及其版本衍化总结(第一讲)
Hadoop学习之路----生态系统及其版本衍化总结(第一讲)课程讲到了第七周,感概颇多,如果我当初自己学的时候能够听到这样的课程,会少走多少弯路,曾静一个的小问题耗费一个月时间的情况都有。所以请大家不要灰心,不管遇到什么困难,坚持坚持在坚持,理解理解在理解。 论坛其实有很多不错的帖子,如果你认真思考Ta的问题,也许就是你知识的盲点或是你没思考过的问题。是一个很大提升自转载 2015-01-27 20:30:13 · 1237 阅读 · 0 评论 -
hadoop一代集群运行代码案例
hadoop一代集群运行代码案例一、 启动hadoop 进入hadoop的bin目录二、建立数据文件,并上传至hdfs 1、 在文件目录为 /home/hadoop 下建立文件夹 file,并在file里面建立文件hadoop_02cd /home/hadoopmkdir file cd file2、写入数据:数原创 2014-09-25 19:49:27 · 1317 阅读 · 0 评论 -
hadoop学习之路----MapReduce原理与基本架构总结(第三讲)
hadoop学习之路----MapReduce原理与基本架构总结(第三讲)MapReduce特点 易于编程(熟悉之后确实很简单,大多数是map和reduce两个部分。hive和pig让mapreduce更加简单) 良好的扩展性(简单的添加机器就可以实现) 高容错性(job中任务部分失败,可以重新执行) 适合PB级以上海量数据的离线处理MapReduce不擅长转载 2015-01-27 20:37:23 · 1269 阅读 · 0 评论 -
Can't find (or read) directory to add to classloader: ../../../contrib/extraction/lib (resolved as:
问题:Can't find (or read) directory to add to classloader: ../../../contrib/extraction/lib (resolved as: /home/solr_home/collection1/../../../contrib/extraction/lib原创 2014-09-06 19:59:20 · 3953 阅读 · 1 评论 -
/usr/tomcat/work/Catalina/localhost/_ is unusable.
启动tomcat出现问题 /usr/tomcat/work/Catalina/localhost/_ is unusable. 解决方法: 把tomcat 下的 work原创 2014-09-06 12:35:55 · 3366 阅读 · 0 评论 -
Could not find necessary SLF4j logging jars.if using Jetty,the SLF4J logging 解决方法
Could not find necessary SLF4j logging jars.if using Jetty,the SLF4J logging jars need to go in the jetty lib/ext原创 2014-09-02 14:21:28 · 2062 阅读 · 0 评论 -
海量Web日志分析 用Hadoop提取KPI统计指标
前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录Web日志分析概述需求分析:KPI指标设转载 2015-02-08 11:41:32 · 1777 阅读 · 0 评论 -
基于Hortonworks的HDP Sandbox
Hadoop基础学习:基于Hortonworks HDP我最开始是通过Hadoop Fundamentals这个课程学习了Hadoop的基础知识,该课程使用了Hortonworks的HDP作为Hadoop平台。HDP是一个与Cloudera, MapR类似的一个企业级Hadoop解决方案,而HDP Sandbox给开发者提供了一个安装好所有Hadoop组件的虚拟机,将其导入到Virtu转载 2015-01-17 19:06:34 · 5592 阅读 · 1 评论 -
Sandbox_HDP_2.2_VirtualBox
Sandbox_HDP_2.2_VirtualBox1、下载地址http://zh.hortonworks.com/hdp/downloads/ 2、用VirtualBox打开这个HDP 点击管理—》导入虚拟电脑—》选择这个ova路径 导入过程: 导入完毕:3、启动这个HDP注意内存一定要多给一些,我的内存是4G,给了2G多,结原创 2015-01-18 14:22:20 · 3676 阅读 · 1 评论