hadoop
文章平均质量分 74
iloveyin
这个作者很懒,什么都没留下…
展开
-
Hadoop入门-Hadoop安装(单机)
1、安装基础工具ssh2、安装JDK将下载源码包jdk-7u4-linux-x64.tar.gz放到目录:/usr/lib/jvm下(这里位置目录可以自己定义,JDK环境变量需要对应)直接解压:tar zxvf jdk-7u4-linux-x64.tar.gz 3、安装hadoop-1.0.3.tar.gz3.1、将下载包解压到根目录tar xzvf h原创 2012-06-10 15:19:52 · 1360 阅读 · 0 评论 -
hadoop stream 参数详解
1 hadoop streaming[html] view plaincopyHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如, $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/ha转载 2015-01-29 10:28:42 · 981 阅读 · 0 评论 -
Hadoop Streaming编程总结
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib转载 2014-12-19 18:57:57 · 996 阅读 · 0 评论 -
使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。三、使用Sqoop将Or转载 2014-07-28 18:15:40 · 6048 阅读 · 0 评论 -
Hadoop datanode无法启动解决方案
碰到的问题: 在master以hadoop用户执行:start-all.sh jps查看master节点启动情况: NameNode JobTracker转载 2014-05-29 11:57:02 · 1249 阅读 · 0 评论 -
揭秘腾讯大数据之平台综述篇
腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。在这样的大背景下,为了公司各业务产品能够使用更丰富优质的数据服务,近年腾讯大数据平台得到迅猛发展。从上图可以看出,腾讯大数据平台有转载 2014-06-11 15:39:08 · 3438 阅读 · 0 评论 -
资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析
1 资源调度的目标和价值1.1 子系统高效调度任务之间资源隔离,减少争抢。 任务分配调度时结合资源分配,各个任务分配合理的资源,充分利用系统资源,减少资源利用不充分的问题。 资源调度结合优先级,优先级高的分配更多的资源。1.2 提高全系统的资源利用率各个子系统,存在不同时期,对资源需求不一样的情况,平滑系统资源的利用。1.3 支持动态调整切分资源,增强系统扩转载 2014-06-11 15:32:07 · 8785 阅读 · 0 评论 -
64位CentOS上编译 Hadoop 2.2.0
下载了Hadoop预编译好的二进制包,hadoop-2.2.0.tar.gz,启动起来后,总是出现这种警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable原因是apache官原创 2014-06-06 18:44:36 · 10134 阅读 · 0 评论 -
yarn框架的简介
新 Hadoop Yarn 框架原理及运作机制重构根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。Re转载 2014-06-04 14:47:54 · 4312 阅读 · 0 评论 -
Hadoop webHDFS设置和使用说明
1.配置namenode的hdfs-site.xml是必须将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILESTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode来保存的。在namenode和一台datanode中向/etc/hadoop/conf/hdfs-site.xml中添原创 2014-06-03 15:04:22 · 22171 阅读 · 2 评论 -
hadoop版本比较
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hado转载 2014-02-12 16:24:54 · 4470 阅读 · 0 评论 -
常见计算框架
YANR本质上是一个资源统一管理系统,这一点与几年前的mesos(http://www.mesosproject.org/),更早的Torque(http://www.adaptivecomputing.com/products/open-source/torque/)基本一致。将各种框架运行在YARN之上,可以实现框架的资源统一管理和分配,使他们共享一个集群,而不是“一个框架一个集群”,这可大大原创 2013-09-24 16:32:58 · 6473 阅读 · 0 评论 -
Hadoop入门-单机伪分布式配置
主要配置三个文件:core-site.xml、hdfs-site.xml、mapred-site.xml使用高版本的hadoop就要修改为下面的配置: Java代码 配置 使用如下的 conf/core-site.xml: fs.default.name hdfs://localhost:9000原创 2012-06-10 14:52:48 · 1388 阅读 · 0 评论 -
hadoop-2.2.0安装配置
18台机器:1台namenode+17台datanode!!!配置hadoop时候先部署namenode,再利用rsync把hadoop目录同步到所有的datanode上面!!!1. 安装JDK:mkdir -p /usr/local/java; wget http://100.100.144.187/jdk-7u51-linux-x64.gz;tar xzvf jdk原创 2014-02-28 17:00:58 · 4029 阅读 · 0 评论