Hadoop
火柴有猿
天道酬勤
展开
-
在windows下用浏览器无法访问虚拟机中Linux的hadoop管理页面
在虚拟机中的Linux中配置好Hadoop之后,我们想要在windows下管理hadoop,那么需要在windows环境下访问虚拟机下的hadoop应用程序,但是在访问的时候比如输入 虚拟机域名:50070 或者 虚拟机域名:50030 之后访问失败分析:一种可能是hadoop没有正常启动,有错误,这样就的正确的查看hadoop启动时,在哪一步出错,另一种可能就是防火墙没有原创 2016-01-15 11:15:23 · 20854 阅读 · 5 评论 -
对hadoop的一些命令总结
1.对hdfs操作的命令格式是hadoop fs 1.1 -ls 表示对hdfs下一级目录的查看 1.2 -lsr 表示对hdfs目录的递归查看 1.3 -mkdir 创建目录 1.4 -put 从linux上传文件到hdfs 1.5 -get 从原创 2016-03-24 18:00:42 · 656 阅读 · 0 评论 -
对HDFS的底层实现原理认识
1.RPC 1.1 RPC (remote procedure call)远程过程调用. 远程过程指的是不是同一个进程。 1.2 RPC至少有两个过程。调用方(client),被调用方(server)。 1.3 client主动发起请求,调用指定ip和port的server中的方法,把调用结果返回给client。 1.4 RPC是hadoo原创 2016-03-24 18:01:27 · 1968 阅读 · 0 评论 -
Zookeeper的数据模型、节点、角色
一、Zookeeper的数据模型1、层次化的目录结构,命名符合常规文件系统规范2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识3、节点Znode可以包含数据和子节点,但是EPHEMERAL类型的节点不能有子节点4、Znode中的数据可以有多个版本,比如某一个路径下存有多个数据版本,那么查询这个路径下的数据就需要带上版本5、客户端应原创 2016-04-14 17:52:53 · 3303 阅读 · 2 评论 -
Zookeeper的安装和配置(集群模式)
上篇文章说了单机部署,现在说下集群的部署,我准备了三台机器,当然这三台机器是我本地的虚拟机运行的三个Linux系统。下载zookeeper的tar文件解压缩安装到master机器上。1、配置zoo.cfg文件修改dataDir的值为/opt/data/zookeeper在这个文件中添加几行内容server.1=server1:2888:3888ser原创 2016-04-14 17:37:01 · 928 阅读 · 0 评论 -
Zookeeper的安装和配置(单机模式)
在理解了zookeeper是什么以及能干什么的前提下,接下来要做的就是安装部署。1、首先下载zookeeper的tar包。2、解压:tar -zxvf zookeeper-3.4.5.tar.gz3、在conf目录下创建一个配置文件zoo.cfg, dataDir=/opt/data/zookeeper4、启动ZooKeeper的Server:sh bin/zkServ原创 2016-04-14 17:17:52 · 4202 阅读 · 1 评论 -
初识hbase
数据库是保存数据的,在我们工作中是必须要接触到的,接下来说说hadoop中用到的数据库。HBase:一、说明是HBase?HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapRedu原创 2016-04-17 18:39:48 · 3798 阅读 · 1 评论 -
对MapReduce模型的理解
前言为什么要用MapReduce MapReduce的流行是有理由的。它非常简单,、易于实现且扩展性强。大家可以通过它轻易地编写出同时在多台主机上运行的程序,也可以使用Ruby、Python、PHP和C++等非Java类语言编写Map或Reduce程序,还可以在任何安装Hadoop的集群中运行同样的程序,不论这个集群有多少台主机。MapReduce适合处理海量数据,原创 2016-04-18 13:00:39 · 1859 阅读 · 0 评论 -
HBase单机安装
前面了解了一下hbase的一些基础知识,现在来搭建下hbase的单机环境。首先下载hbase安装包1、下载地址:http://apache.fayea.com/hbase/hbase-0.94.27/2、下载后进行解压缩:tar -zxvf hbase-0.94.27.tar.gz3、移动到指定的目录下mv hbase-0.94.27 /opt/modules/原创 2016-04-18 12:58:02 · 1295 阅读 · 1 评论 -
用java API来操作HBase
我们在日常工作中,用eclipse来编写具体的程序,来操作HBase数据库,首先在eclispe中配置HBase环境新建项目--》导入HBase中的jar包下面直接贴代码package com.hbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.ap原创 2016-04-18 14:22:08 · 835 阅读 · 0 评论 -
导入eclipse工程中hadoop的源码遇到的错误
在eclipse中导入hadoop-core源码的时候报错了,现在看下报错的地方。这是什么原因造成的呢??看import上面的注释,说需要引入一些其他的文件解决办法:工程--》鼠标右键--》属性--》java builder path--》Libraries标签--》点击JRE System Library里面的Access rules--》add sun/原创 2016-04-19 11:38:43 · 986 阅读 · 0 评论 -
在eclipse操作hbase时,遇到的问题
今天在运行hbase的一个例子的时候,遇到了一个错误ERROR: org.apache.hadoop.hbase.PleaseHoldException: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing当我百事不得其解的时候,把hbase-site.xml中的一个配置属性该了一下原创 2016-05-03 20:57:15 · 1054 阅读 · 0 评论 -
hbase的集群搭建
当我们配置好hbase的伪分布式后,我们来修改几个文件首先进入到hbase的conf目录下1、修改hbase-env.sh执行vi hbase-env.sh修改HBASE_MANAGES_ZK=false2、修改hbase-site.xml执行vi hbase-site.xml3、修改执行vi regionservers原创 2016-05-04 09:56:48 · 722 阅读 · 0 评论 -
hadoop学习之旅--学习目录
前言一、在学习Hadoop之前,必须具备以下几点:1、懂一点点Linux,“懂一点点Linux”是指,假如有一台装了Linux操作系统的计算机,能做到开机,输入密码,进入图形界面,打开命令终端,就可以了。2、懂一点点Java编程,在Linux上,用记事本写一个Java的HelloWorld程序,然后把它编译出来,执行一下,就可以了。这个预要求非常低,接近于零。二、需要的条件:原创 2015-12-29 13:03:28 · 1304 阅读 · 1 评论 -
在了解hadoop过程中碰到的一些问题
在学习hadoop的时候,经常性的遇到问题是必不可少的阶段,因为想要学好一门技术,必须要经过无数的错误,才能百炼成金。1、当hadoop配置文件的配置发生变化的时候,有时候hadoop在启动的时候会进入安全模式,这样不能删除已经增加hdfs系统中的一些文件,因为处于保护状态,这对于进行维护hadoop非常有用,有时候我们只是进行测试工作,就必须要做一些工作来去除这个安全模式的困扰。解决办法原创 2016-02-20 14:31:25 · 844 阅读 · 0 评论 -
在运行hive的时候出现的问题
Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx-wx--x at org.apache.h原创 2016-05-05 21:46:48 · 1977 阅读 · 0 评论 -
hive启动报java.net.URISyntaxException
hive启动报错 java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7B,relativeabsolute这个一看就是配置文件的路径配置有问题。修改hive-site.xml文件内容如下 hive.exec.scratchdir /op原创 2016-05-05 22:03:05 · 1742 阅读 · 0 评论 -
用FileSystem API来操作HDFS
用URL操作HDFS的时候,编写难度比较大,现在我们用hadoop提供的API来操作,会更方便,不说废话贴代码。package com.hsl.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream原创 2016-03-24 16:05:14 · 3027 阅读 · 0 评论 -
用URL来操作Hadoop
在我们部署好hadoop开发环境的时候,接下来就是学习编写代码,真正的进入Hadoop的世界。首先来看一段代码:package com.hsl.test;import java.io.InputStream;import java.net.URL;import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;import org.a原创 2016-03-23 11:06:19 · 2441 阅读 · 0 评论 -
linux下安装hadoop以及myeclipse连接的配置
本文作者原创,转载请注明出处原创 2015-12-19 20:00:57 · 1361 阅读 · 0 评论 -
学习hadoop总结(1)
经过了痛苦原创 2016-01-29 11:23:22 · 1000 阅读 · 0 评论 -
对于HDFS的了解和认识
注:引用前辈的文章抛砖迎玉了下,对于以后学习理论的东西更加轻松点。 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了转载 2016-01-29 13:28:45 · 5857 阅读 · 0 评论 -
hadoop到底是什么
一天天都在说hadoop,到底什么才是hadoop呢?1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。[1] Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计原创 2016-01-06 16:54:08 · 32154 阅读 · 0 评论 -
Hadoop 的发展史和版本
1、hadoop发展历程1)、. 这一切是如何开始的—Web上庞大的数据! 2)、使用Nutch抓取Web数据3)、 要保存Web上庞大的数据——HDFS应运而生4)、如何使用这些庞大的数据?5)、采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析6)、 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webda原创 2016-01-13 16:11:27 · 3644 阅读 · 0 评论 -
Hadoop相关命令中的【--config configdir】
当我们在profile文件中配置好hadoop的环境变量后,在执行hadoop的时候会出现如下这说明在执行hadoop的时候,可以带参数来执行相关的操作,比如我们有好几个版本的hadooop,那么我们在执行hadoop的时候,到底运行哪个呢?那么这样就可以执行hadoop命令时加上后面的参数来指定具体要执行那个版本的hadoop。例:hadoop --config /opt/h原创 2016-02-01 12:45:17 · 2938 阅读 · 0 评论 -
Hadoop 1.x 、Hadoop 2.x 生态系统学习(复制前辈的文章)
声明:以下内容是复制前辈的文章,查看原文这里有耐心的往下看。。。1、Hadoop生态系统概况(看这个图,就大概知道各个模块是做什么的)Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop1.0的核心是HDFS和MapReducehadoop2.0的核心是HDFS和MapReduce,还包括YARN。下图为hadoop的转载 2016-01-14 13:54:46 · 1951 阅读 · 1 评论 -
namenode namespaceID与datanode namespaceID 不一致导致datanode无法启动的问题
在启动hadoop之后,发现如下datanode何在?????在重新启动hadoop的时候,发现了问题,如下这说明datanode启动时出错了我们跟踪这个问题,进入到log文件夹下,找到hadoop-root-datanode-master.logmore hadoop-root-datanode-master.log接下来,就是来原创 2016-01-14 14:43:51 · 2410 阅读 · 0 评论 -
在启动hadoop的时候,总是有警告Warning: $HADOOP_HOME is deprecated
警告看着总是别扭,所有没有警告才能更好。警告如下Warning: $HADOOP_HOME is deprecated在每次启动的时候,或者关闭的时候就会出现,说这个已经过时。。。。很烦,所以只能去掉了。具体如下,进入到hadoop的bin目录,找到hadoop-config.sh修改profile文件,使配置生效在重新启动hadoo原创 2016-01-14 14:47:44 · 2023 阅读 · 0 评论 -
Hadoop 1.x 下载、安装
首先我们下载hadoop的版本,我学习是用的hadoop 1.x的版本如果想要尝试其他版本,课自行选择 下载地址下载完之后,我们上传到Linux上我用Xshell上传,当然也可以用SecureCRT/SecureFX来上传当然,在安装hadoop之前也要先安装jdk,配置环境变量,详情请查看hadoop的具体的安装过程可以原创 2016-01-14 19:14:29 · 1432 阅读 · 0 评论 -
Hadoop 1.x启动服务的顺序学习
在启动hadoop的时候,使用start-all.sh shell命令来启动hadoop,那么具体的内部执行流程是怎么样的,有图有真相接下来我们看下hadoop默认的配置文件的内容要是有耐心,继续接着看下hadoop-env.sh 脚本的执行过程接着会启动dfs执行start-fds.shstart-dfs.sh可以单独运行,也可原创 2016-01-14 19:55:01 · 1106 阅读 · 0 评论 -
在Centos系统中搭建Hadoop集群
之前我在一个Centos机器上面搭建了伪分布式的hadoop,接下来搭建多个机器的分布式hadoop集群。首先定义一下集群的一些规则:1、准备三台Centos系统(我都装在了虚拟机里面),版本一致,搭建的环境一致(JDK,Hadoop)2、配置三台机器的IP地址和主机名原创 2016-02-17 16:58:06 · 1114 阅读 · 0 评论 -
运行hdfs的wordcount程序时出现的错误
在运行wordCount程序时,出现了如下的错误:16/03/29 17:30:10 ERROR security.UserGroupInformation: PriviledgedActionException as:admin cause:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path do原创 2016-03-29 17:31:12 · 1730 阅读 · 0 评论 -
windows下,用eclipse连接虚拟机中的hadoop
1. 前言1.1 目标具体目标是:在windows 上能够使用eclipse连接Centos系统上部署的hadoop进行开发与测试1.2 软硬件要求硬件要求:三台普通PC。当然使用虚拟机也可以,本环境搭建也是VMWare10虚拟机上进行的。软件要求:操作系统:Centos7.1。Hadoop版本: ha原创 2016-02-20 14:08:51 · 6657 阅读 · 0 评论 -
在windows下,用eclipse链接hadoop遇到的问题。
在我们配置好eclipse链接hadoop的插件后,需要一系列的配置,现在加入一切都配置好了,但是我们在DFS Locations上传文件的时候回弹出没有权限的错误时,我们可以这样做。在windows的环境变量中加入一个环境变量HADOOP_USER_NAME=root这样eclipse链接hadoop的时候,会以root的用户来链接,这样就有操作权限了。以此来记录我的汗水和经验原创 2016-03-18 22:04:58 · 1060 阅读 · 0 评论 -
在eclipse中运行WordCount程序时的错误
有时候,我们为了方便学习或者编码,又或者是linux服务器就不在我们身边,我们只能利用远程来学习使用hadoop,这样我们就的在windows下面链接服务器端的hadoop服务,来作业。在配置的过程中,我遇到了好多问题,这里我只说一个错误。那就是在运行WordCount程序的时候遇到的错误。如下图:是不是比较明白?在FileUtil中的,checkReturnValue原创 2016-02-23 10:22:54 · 2421 阅读 · 0 评论 -
Java 1.8+Hadoop 2.7.3+Spark 2.1.1+Scala 2.11.8整合分布式部署
在写本文章前,假设三个Linux系统已经装好,分别为:三个主机:键入命令:sudo vi /etc/hostnamemaster、slave1、slave2IP地址分别为:修改文件hostssudo vi /etc/hosts192.168.56.101 master192.168.56.102 slave1192.168.56.103 slave2原创 2017-06-27 17:29:34 · 2258 阅读 · 0 评论