hadoop
青峰祭坛
这个作者很懒,什么都没留下…
展开
-
ZooKeeper安装与配置
安装:转自:http://www.cnblogs.com/linjiqin/archive/2013/03/16/2962597.html一. 单机安装、配置:1. 下载zookeeper二进制安装包2、2.解压zookeeper安装包把zookeeper-3.4.3.tar.gz文件存放在/home/hadoop目录下,进行解压:Zoo转载 2016-05-24 15:56:59 · 554 阅读 · 0 评论 -
HDFS文件存储组织
1、作为一个分布式文件系统,HDFS内部的数据和文件存储机制、读写过程与普通的本地文件系统有较大的差别。2、文件数据的存储组织①HDFS中最主要的部分就是NameNode和DataNode。NameNode存储了所有文件元数据、文件与数据块的映射关系,以及文件属性等核心数据,DataNode则存储了具体的数据块。3、NameNode目录结构NameNode借助本地文件系统来保存数据,保原创 2016-05-20 14:36:59 · 995 阅读 · 0 评论 -
HDFS数据的读写过程
1.一般的文件读取操作包括:open 、read、close等客户端读取数据过程,其中1、3、6步由客户端发起:客户端首先获取FileSystem的一个实例,这里就是HDFS对应的实例:①客户端调用FileSystem实例的open方法,获得这个文件对应的输入流,在HDFS中就是DFSInputStream②构造第一步中的输入流DFSInputStream时,通过RPC远程调用Na原创 2016-05-20 15:42:29 · 8610 阅读 · 0 评论 -
HDFS文件系统操作命令
1、HDFS启动关闭HDFS和普通的硬盘上的文件系统不一样,是通过Java虚拟机运行在整个集群当中的,所以当Hadoop程序写好之后,需要启动HDFS文件系统,才能运行:①启动 》》进入到NameNode对应节点的Hadoop安装目录下 》》执行 bin/start-dfs.sh (2.6.4中 sbin/原创 2016-05-20 16:18:42 · 5374 阅读 · 0 评论 -
HDFS基本编程接口
1、hadoop中基本上所有的Api原创 2016-05-20 23:00:36 · 1752 阅读 · 0 评论 -
Hadoop使用jar运行实例
一、.在eclipse中使用编写程序,然后打成jar包,程序代码:package tju.chc;import java.io.File;import java.io.IOException;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop原创 2016-05-23 11:14:58 · 29766 阅读 · 0 评论 -
hadoop运行报错Wrong FS: hdfs:/, expected: file:///
Wrong FS: hdfs expected: file:场景:错误java.lang.IllegalArgumentException: Wrong FS: hdfs:/, expected:file:///异常java.lang.IllegalArgumentException: Wrong FS: hdfs:/, expected: file:///原创 2016-05-23 11:56:46 · 13637 阅读 · 2 评论 -
Hadoop MapReduce 程序执行过程
1、下图展示了Hadoop MapReduce 并行计算框架上执行一个用户提交的MapReduce程序的过程。①首先,程序客户端通过作业客户端接口程序JobClient提交一个用户程序。②然后JobClient先JobTracker提交作业执行请求并获得一个JobID③JobClient同时也会将用户程序作业和待处理的数据文件信息准备好并存储在HDFS中。④JobClient正原创 2016-05-23 16:42:32 · 799 阅读 · 0 评论 -
Hadoop MapReduce并行编程框架
Hadoop MapReduce 是Google MapReduce的一个开源实现。1、MapReduce并行编程抽象模型① 面向大规模数据处理,MapReduce 采用了对数据“分而治之”的方法来完成并行化的大数据处理。MapReduce在总结了典型的顺序式大数据处理过程和特征的基础上,提供了一个抽象模型,并借助与函数式设计语言Lisp的设计思想,用Map和Reduce函数提供了两个原创 2016-05-23 14:49:11 · 3297 阅读 · 0 评论 -
Hadoop启动报Error: JAVA_HOME is not set and could not be found解决办法
Hadoop启动报Error: JAVA_HOME is not set and could not be found解决办法 Hadoop安装完后,启动时报Error: JAVA_HOME is not set and could not be found.解决办法: 修改/etc/hadoop/hadoop-env.sh中设JAVA_HO原创 2016-05-03 23:02:17 · 5676 阅读 · 3 评论 -
Hadoop平台基本组成
1、Hadoop系统运行于一个由普通商用服务器组成的计算集群上,能提供大规模分布式数据存储资源的同时,也提供了大规模的并行化计算资源。2、Hadoop生态系统3、MapReduce并行计算框架 MapReduce并行计算框架是一个并行化程序执行系统。它提供了一个包含Map和Reduce两个阶段的并行处理模型和过程,提供了一个并行化编程模型和接口,让程序员可以方便快速地编写出大原创 2016-05-18 11:24:52 · 5383 阅读 · 0 评论 -
hadoop 问题| no datano to stop | kill -9 pid
master log中报 : ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: RECEIVED SIGNAL 15: SIGTERM2015-12-09 11:50:50,870 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: SHUTDOWN_MSG原创 2016-05-31 22:22:20 · 1904 阅读 · 0 评论 -
Jstorm 集群搭建过程及一键安装部署脚本
Jstorm 集群搭建过程及一键安装部署脚本时间 2015-05-14 10:51:14 自由原文 http://ixirong.com/2015/05/12/how-to-install-jstorm-cluster/ 主题 JStorm ZooKeeper最近公司业务数据量越来越大,以前的基于消息队列的日志系统越来越难以满足目前的业务量,表转载 2016-05-24 19:03:09 · 1987 阅读 · 0 评论 -
Hadoop MapReduce执行框架作业调度方法 组件和执行流程
1、Hadoop MapReduce作业调度早期的Hadoop使用的FIFO调度器来调度用户提交的 作业。现在主要使用的调度器包括Yahoo公司提出的计算能力调度器(Capacity Scheduler)以及Facebook公司提出的公平调度器(Fair Scheduler)2、MapReduce执行框架的组件和执行流程 每个TaskTracker节点将从HDFS分布式文件中读取所原创 2016-05-23 23:54:00 · 1518 阅读 · 0 评论 -
Mapper类——hadoop
1、Map是一些单个任务。Mapper类就是实现Map任务的类。haddop提供了一个抽象的Mapper基类,程序员需要继承这个基类,并实现其中相关的接口函数一个示例Mapper类的定义如下: public static class MyMapper extend Mapper①Mapper类是Hadoop提供的一个抽象类,程序员可以继承这个基类并实现其中的相关接口函数。它位于 o原创 2016-05-25 10:35:04 · 11970 阅读 · 0 评论 -
Combiner类和Partitioner类——hadoop
一、Combiner类1、Hadoop框架使用Mapper将数据处理成一个个键值对,再对其进行合并和处理,最后使用Reduce处理数据并输出结果2、上述过程会遇到一些瓶颈,比如: 在做词频统计的时候,大量具有相同主键的键值对数据如果直接传送个Reduce节点会引起较大的网络带宽开销。可以对每个Map节点处理完成的中间键值对做一个合压缩,即把那些主键相同的键值对归并为该一个键名下的一组数原创 2016-05-25 11:18:46 · 2049 阅读 · 0 评论 -
Sort类——Hadoop
1、Sort是Map过程所产生的中间数据在送给Reduce进行处理之前要经过一个过程。首先,当map()函数处理完数据之后,会将中间数据存在本地的一个或几个文件中,并且针对这些文件内部的记录进行一次升序的快速排序。2、然后在Map任务将所有的中间数据写入本地文件并进行快速排序之后,系统会对这些排好序的文件做一个归并排序,并将排好序的结果输出到一个大的文件中。3、在Sort过程中,由Map过原创 2016-05-25 11:31:37 · 926 阅读 · 0 评论 -
Reducer类——hadoop
1、Reducer类 , 由Map过程输出的一组键值对【(k2;v2)】将被进行合并处理,将同样主键下的不同value合并到一个列表【v2】中,因此Reduce的输入为(k2;【v2】)。Reducer对传入的中间结果列表数据进行某种整理或进一步的处理,并产生最终的某种形式的结果输出【(k3;v3)】一个示例 Reducer类的基本定义public static class IntSumR原创 2016-05-25 14:42:01 · 3747 阅读 · 0 评论 -
OutputFormat类——Hadoop
1、OutputFormat是一个用于描述MapReduce作业的输出格式和规范的抽象类,位于org.apache.hadoop.mapreduce.OutputFormat. Mapreduce框架依靠文件输出格式完成输出规范检查(如检查目录是否存在),并为文件输出格式提供作业结果数据输出的功能,即提供RecordWriter的实现,输出文件被存储在文件系统FileSystem中。2、如原创 2016-05-25 15:18:05 · 2901 阅读 · 0 评论 -
vmare nat方式链接配置
nat方式链接三个节点:1.vmare中虚拟网络编辑选择nat 设置好ip,其ip就是网关 编辑——》虚拟网络编辑器——》2。讲外网共享给vmnet8右键无线网络链接——》属性——》共享——》 3、在每个虚拟节点 设置静态ip 其中网关 是 nat的ip dns是共享外网的dns可以是其他公共的dnsu原创 2016-05-03 21:59:38 · 385 阅读 · 0 评论 -
ubuntu上运行eclipse出现 Call From master to localhost:9000 failed on connection exception
由于初学hadoop出现此原因并未做详细分析,解决方发:原因:本地用户administrator(本机windows用户)想要远程操作hadoop系统,没有权限引起的。解决办法:1、如果是测试环境,可以取消hadoop hdfs的用户权限检查。打开conf/hdfs-site.xml,找到dfs.permissions属性修改为false(默认为true)OK了。(1.2.1 版本原创 2016-05-04 14:53:13 · 6649 阅读 · 1 评论 -
CentOS+Hadoop+Spark+HBase+ElasticSearch环境
软件等准备:Centos 6.5 : http://www.centoscn.com/CentosSoft/iso/2013/1205/2196.htmlU盘制作工具:雨林木风,电脑店,大白菜等 http://www.osyunwei.com/archives/2307.htmljdk 1.8hbase-1.2.2-bin.tar.gzspark-1.6原创 2016-08-17 21:05:59 · 1135 阅读 · 0 评论