Hadoop
文章平均质量分 90
ShawshankLin
这个作者很懒,什么都没留下…
展开
-
Hadoop技术原理总结
1、Hadoop运行原理 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce和HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 基于MapReduce计算模型编写分布式并行程序相对简单,程序员的主要工作就是设计实现Map和Re转载 2015-07-17 23:34:41 · 581 阅读 · 0 评论 -
VMWare10下基于Ubuntu14搭建Hadoop-1.2.1集群
最近在学习Hadoop,把hadoop集群环境搭建的过程记录一下,方便查询,方案中有好多细节的东西,可能会比较啰嗦,对于新手来说或许更有帮助,闲话不多说,进入正题。搭建5个节点的Hadoop集群环境1. 环境说明使用VMWare创建5台Ubuntu虚拟机,环境详细信息如下:虚拟机操作系统JDK原创 2015-07-19 17:48:40 · 892 阅读 · 0 评论 -
Hbase-Java API操作
写了个Hbase新的api的增删改查的工具类,以供参考,直接拷贝代码就能用,散仙觉得基础的功能,都有了,代码如下:package com.dhgate.hbase.test;import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.Configuration;import org转载 2015-08-06 10:11:59 · 427 阅读 · 0 评论 -
hadoop2.6完全分布式安装HBase1.1
原创文章,转载请注明:转载自工学1号馆对于全分布式的HBase安装,需要通过hbase-site.xml文档来配置本机的HBase特性,由于各个HBase之间通过zookeeper来进行通信,因此需要维护一组zookeeper系统,关于zookeeper的安装使用,参考《 hadoop2.6完全分布式安装zookeeper3.4.6 》1、安装Hbase(1)下载hbase版本转载 2015-07-28 11:23:04 · 1636 阅读 · 0 评论 -
sqoop的安装及使用
1.下载安装包及解压 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.配置环境变量和配置文件cd %SQOOP_HOME%cp conf/sqoop-env-template.sh /conf/sqoop-env.sh在sqoop-env.sh中添加如下代码:export HADOOP_COMMON_HOME原创 2015-08-03 11:15:30 · 4229 阅读 · 1 评论 -
Hive安装及使用攻略
转载自: http://blog.fens.me/hadoop-hive-intro/让Hadoop跑在云端系列文章,介绍了如何整合虚拟化和Hadoop,让Hadoop集群跑在VPS虚拟主机上,通过云向用户提供存储和计算的服务。现在硬件越来越便宜,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,已经降到2万块人民币以下了。这种配置如果简单地放几个web应用,显转载 2015-07-24 00:20:47 · 1038 阅读 · 0 评论 -
sqoop1.99.4 JAVA API操作
貌似天国还没有介绍1.99.4的java操作代码的,自己吃一次螃蟹吧如果你是MAVEN项目1 dependency>2 groupId>org.apache.sqoopgroupId>3 artifactId>sqoop-clientartifactId>4 version>1.99.4version>5 dependency>如果你是java项转载 2015-08-25 17:30:39 · 2001 阅读 · 1 评论 -
Hadoop MapReduce执行过程详解(带hadoop例子)
分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:Mapper任务的执行过程详解每个Mapper任务是一个java进程,它会读转载 2015-07-05 10:50:11 · 481 阅读 · 0 评论 -
使用Maven搭建Hadoop开发环境
关于Maven的使用就不再啰嗦了,网上很多,并且这么多年变化也不大,这里仅介绍怎么搭建Hadoop的开发环境。1. 首先创建工程[plain] view plaincopyprint?mvn archetype:generate -DgroupId=my.hadoopstudy -DartifactId=hadoopstudy -Da转载 2015-08-22 22:37:19 · 427 阅读 · 0 评论 -
maven在eclipse建立工程,运行出现Server IPC version 9 cannot communicate with client version 4错误
这个问题研究了好久好久,都快崩溃了,几近放弃。问题的根源在于,工程当中maven dependencies里面的包,有个hadoop-core的包,版本太低,这样,程序里面所有引用到org.apache.hadoop的地方,都是低版本的,你用的是maven3的话,默认是hadoop-core-1.2.1.jar,这个就是那个“ipc client version4”, 而一般情转载 2015-08-25 09:03:51 · 6214 阅读 · 3 评论 -
Hadoop-添加新节点到集群
在新节点安装好hadoop把namenode的有关配置文件复制到该节点修改master和salver文件,增加该节点以上操作也可以通过直接复制一个节点的hadoop到新节点上,而第三步的节点添加则需要每一台机都要配置了,如果机群庞大的话还是很麻烦,那么也可以通过ssh传送配置或者写一些脚本实现。设置ssh免密码进出该节点 让新添加的节点可以与其他节点互相通讯单独启动该节点的datanode原创 2015-07-27 20:49:13 · 3203 阅读 · 1 评论 -
Hbase总结(四)- Hbase与传统数据库的区别
在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,这岂不是咱哥几个的悲哀,说时髦点就叫“杯具啊”。其实说白了,这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说,互联网应用更加看重系统性转载 2015-08-09 08:19:15 · 538 阅读 · 0 评论 -
Hadoop小练习——利用MapReduce求平均数
前面对MapRuduce理念作了学习,有一点领会,趁热打铁做一个小练习,巩固下理念知识才是真理,实践是检验真理的唯一标准。这里做一个求分数平均数的MapReduce例子,这里引导一位前辈说的方法,我觉得非常道理。就是:map阶段输入什么、map过程执行什么、map阶段输出什么、reduce阶段输入什么、执行什么、输出什么。能够将以上几个点弄清楚整明白,一个MapReduce程序就会跃然纸上原创 2015-07-05 20:37:19 · 8571 阅读 · 1 评论 -
Ubuntu下利用MyEclipse开发Hadoop
开发的大环境是Ubuntu 11.04,Hadoop 0.20.2,MyEclipse 9.1首先要安装Myeclipse,在Ubuntu下安装Myeclipse和windows环境下安装的方法一样,下载myeclipse-9.1-offline-installer-linux.run然后双击运行就ok了。接下来安装Myeclipse的Hadoop插件,在hadoop的安装路径转载 2015-07-05 00:16:48 · 678 阅读 · 0 评论 -
hadoop常用命令
开始学习hadoop,这里记录下hadoop的常用命令,跟普通linux命令大同小异,只是在前面加上hadoop fs就可以了。启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoo原创 2015-07-04 14:14:31 · 523 阅读 · 1 评论 -
Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)
转载自:http://blog.csdn.net/zhaoyl03/article/details/8657104Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。首先,了解Hadoop的三种安装模式:1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在转载 2015-07-04 23:09:36 · 953 阅读 · 0 评论 -
hadoop集群中的日志文件
hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情况下建议重新指定路径,常用的是/var/log/hadoop,通过在hadoop-env.s转载 2015-07-25 23:07:29 · 478 阅读 · 0 评论 -
hadoop2.6完全分布式安装zookeeper3.4.6
原创文章,转载请注明: 转载自工学1号馆1、下载解压Zookeeper3.4.6hadoop@master:~/opt$ tar -zxvf zookeeper-3.4.6.tar.gz2、Zookeeper环境变量的配置hadoop@master:~$ vim ~/.bashrc# set zookeeper environment原创 2015-07-28 11:07:56 · 2070 阅读 · 0 评论