Hadoop
文章平均质量分 79
sunseazhu
本科生在读
展开
-
026_默认的MapReduce Driver(最小驱动问题)
1、 最小配置的MapReduce Driver读取输入文件中的内容,输出到指定目录的输出文件中,此时文件中的内容为:Key---输入文件每行内容的起始位置。Value---输入文件每行的原始内容。输出文件中的内容就是:key+\t+value. 1 package org.dragon.hadoop.mapreduce.app.minDriver; 2 3 im原创 2016-03-23 12:53:29 · 1065 阅读 · 0 评论 -
019_Map Task数目的确定和Reduce Task数目的指定
注意标题:Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂1、MapReduce作业中Map Task数目的确定: 1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个原创 2016-03-23 12:53:10 · 635 阅读 · 0 评论 -
08_三大配置文件和五大守护进程
1、配置文件 三大基础配置文件: 1)core-site.xml:配置HadoopCommonProject相关的属性配置,Hadoop1.x框架基础属性的配置 2)hdfs-site.xml:配置HDFSProject文件系统相关的属性 3)mapred-site.xml:配置与MapReduce框架相关的属性 配置文件:1)masters:主节点,原创 2016-03-23 12:52:31 · 291 阅读 · 0 评论 -
05_安装本地(单机)模式
软件安装的规则: /opt --- 父目录/opt/modules -- 存放软件的安装目录/opt/softwares -- 存放软件包(tar 包,bin 文件,zip 文件等)/opt/tools -- 存储工具目录(Eclipse 等)/opt/data -- 存储一些测试数据/home/hadoop原创 2016-03-23 12:52:26 · 203 阅读 · 0 评论 -
02_虚拟机的安装和SecureCRT、FileZilla、Xmanage、UltraEdit工具的介绍
上述几个工具连接不成功的情况,很多时候是因为ssh服务没有安装,CentOS默认安装,不会出现问题,Ubuntu桌面版默认没有安装,需要手动安装,安装部分参考下文SecureCRT部分一、安装CentOS及配置主机网络 安装CentOS6.4-x64镜像,在网上下载VMWare虚拟机和CentOS镜像,安装不在详述。 安装时注意事项:安装的时候不要选择最小化安装,选择GNO原创 2016-03-23 12:52:19 · 897 阅读 · 0 评论 -
012_Eclipse中使用 HDFS URL API 事例介绍
本事例其实和使用hdfs FileSystem API差不多,FileSystem API也是通过解释成URL在hdfs上面执行的,性质相同,但是实际中用 的fFileSystem会多一点,源码如下:package org.dragon.hadoop.hdfs;import java.io.IOException;import java.io.InputStream;imp原创 2016-03-23 12:52:48 · 317 阅读 · 0 评论 -
013_HDFS文件合并上传putmarge功能(类似于hadoop fs -getmerge)
场景 合并小文件,存放到HDFS上。例如,当需要分析来自许多服务器的Apache日志时,各个日志文件可能比较小,然而Hadoop更合适处理大文件,效率会更高,此时就需要合并分散的文件。如果先将所有文件合并,在复制上传到HDFS上的话,需要占用本地计算机的大量磁盘空间。采取在向HDFS复制上传文件的过程中将小文件进行合并,效果会更好。开发一个PutMerge程序,用于将合并文件后放入HDFS原创 2016-03-23 12:52:50 · 1316 阅读 · 0 评论 -
018_Reduce Shuffle Phase详细流程分析
一、Reduce Shuffle Phase图示二、Reduce Shuffle Phase具体流程分析1、 Copy过程,简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher),通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。因为map task早已结束,这些文件就归TaskTracker管理在本地磁盘中。2、M原创 2016-03-23 12:53:07 · 707 阅读 · 0 评论 -
09_Hadoop启动或停止的三种方式及启动脚本
1、Hadoop启动或停止1)第一种方式分别启动 HDFS 和 MapReduce,命令如下:启动:$ start-dfs.sh $ start-mapred.sh 停止:$ stop-mapred.sh $ start-dfs.sh 2)第二方式全部启动或者全部停止启动:start-all.sh 启动顺序:NameNode、DataNode、Sec原创 2016-03-23 12:52:36 · 1121 阅读 · 0 评论 -
[置顶]01_Hadoop学习笔记内容说明
Hadoop学习笔记内容说明_001、 观看云帆大数据梦琪老师的《企业级 Hadoop 1.x 应用开发基础课程》2014年4月左右版本。2、 博客是在梦琪老师的随堂笔记上改动的,方便的是自己以后回顾学习,也或许能给需要改方面帮助的同行提供些许帮助,在此非常感谢梦琪老师。3、 本系列是在CentOS6.4+hadoop1.2.1上实验通过的。4、 由于本人刚刚接触,对Lin原创 2016-03-23 12:53:48 · 444 阅读 · 0 评论 -
028_MapReduce中的计数器Counter的使用
一、分析运行wordcount程序屏幕上打印信息##运行wordcount单词频率统计程序,基于输出输出路径。[hadoop@hadoop-master hadoop-1.2.1]$ hadoop jar hadoop-examples-1.2.1.jar wordcount /wc/mininput /wc/minoutput##告知输入路径下有几个文件需要处理16/03/14原创 2016-03-23 12:53:34 · 736 阅读 · 0 评论 -
027_编写MapReduce的模板类Mapper、Reducer和Driver
模板类编写好后写MapReduce程序,的模板类编写好以后只需要改参数就行了,代码如下: 1 package org.dragon.hadoop.mr.module; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import or原创 2016-03-23 12:53:31 · 1340 阅读 · 0 评论 -
025_MapReduce样例Hadoop TopKey算法
1、需求说明2、 某个文件中某列数据的最大值。思路:对每一个列的值依次进行比较,保存最大的值进行输出,算法的思想类似于排序算法(快速和冒泡排序)。Mapper:因为只是在wordcount统计的基础上统计的,只是针对一个列,故可以找到最大值后,将最大值和对应的text给,cleanup中的context.write()方法,然后输出。此时不需要Reducer。 1 p原创 2016-03-23 12:53:26 · 470 阅读 · 0 评论 -
03_Hadoop简单介绍以及版本信息
一、海量数据: 量:大、数目多,数据量到达PB、ZB级别,条目数到达几十亿条、百亿条1)存储:分布式,集群的概念,管理(主节点、从节点),HDFS(HadoopDistributedFileSystem)2)分析:分布式,并行,离线计算框架,管理(主节点、从节点),MapReduceApacheHadoopLogo,一只会飞的大象二、Hadoop与Google的关系原创 2016-03-23 12:52:21 · 264 阅读 · 0 评论 -
04_Apache Hadoop 生态系统
内容提纲: 1)对 Apache Hadoop 生态系统的认识(Hadoop 1.x 和 Hadoop 2.x)2) Apache Hadoop 1.x 框架架构原理的初步认识3) Apache Hadoop 1.x 安装的三种模式Hadoop 1.x 生态系统ETL: 提取à转换à加载:从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的原创 2016-03-23 12:52:24 · 656 阅读 · 0 评论 -
06_Hadoop配置伪分布式模式详解
查看IP地址,设为手动模式: 配置hadoop用户sudo权限su切换到root身份,配置vim /etc/sudoers文件,加入hadoop ALL=(root)NOPASSWD:ALL 配置/opt文件夹的属主将/opt文件夹的属于由root:root改为hadoopsudo -R hadoop:hadoop /opt 关闭防火墙原创 2016-03-23 12:52:28 · 183 阅读 · 0 评论 -
023_数量类型练习——Hadoop MapReduce手机流量统计
1) 分析业务需求:用户使用手机上网,存在流量的消耗。流量包括两部分:其一是上行流量(发送消息流量),其二是下行流量(接收消息的流量)。每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小。使用手机上网,以手机号为唯一标识符,进行记录。有记录,包括很多信息,需要的信息字段。 实际需要的字段: 手机号码、上行数据包数、下行数据包数、上行总流量、下行总流量。2)原创 2016-03-23 12:53:21 · 1014 阅读 · 0 评论 -
022_Hadoop中的数据类型(Writable、WritableComparable、Comparator、RawComparator…)
1、 在hadoop中所有的key/value都必须实现Writable接口,有两个方法,分别用于读(反序列化)和写(序列化)操作。参考代码: 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5原创 2016-03-23 12:53:18 · 744 阅读 · 0 评论 -
021_在Eclipse Indigo中安装插件hadoop-eclipse-plugin-1.2.1.jar,直接运行wordcount程序
1、工具介绍 Eclipse Idigo、JDK1.7-32bit、hadoop1.2.1、hadoop-eclipse-plugin-1.2.1.jar(自己网上下载)2、插件安装步骤 1)将hadoop-eclipse-plugin-1.2.1.jar放到eclipse安装目录的plugins文件夹中,重新启动eclipse。 2)打开Window-->Preferen原创 2016-03-23 12:53:15 · 882 阅读 · 0 评论 -
020_自己编写的wordcount程序在hadoop上面运行,不使用插件hadoop-eclipse-plugin-1.2.1.jar
1、Eclipse中无插件运行MP程序 1)在Eclipse中编写MapReduce程序 2)打包成jar包 3)使用FTP工具,上传jar到hadoop 集群环境 4)运行2、具体步骤说明:该程序运行完被我删除了,具体添加哪些包不太清楚,但是最保险的是把有可能用到的都添加进去,添加情况如下:1)创建工程、类2)添加文件夹conf、lib,然后将指定的jar包添加原创 2016-03-23 12:53:12 · 495 阅读 · 0 评论 -
017_Map Shuffle Phase详细流程分析
一、概述 每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。二、细致流程分析1、 在map task执行时,它的输入数据来源于HDFS的block,当然在M原创 2016-03-23 12:53:04 · 1326 阅读 · 0 评论 -
016_笼统概述MapReduce执行流程结合wordcount程序
数据传输 File--> -->map(key,value) --> mapResult --> partition --> sort --> combiner(可选,本地化规约) --> combiner --> 合并 --> sort --> reduce --> reduceResult --> File核心:合并和排序一、原创 2016-03-23 12:53:01 · 848 阅读 · 0 评论 -
015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记
1、大数据金字塔结构 Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions2、从业职位 业务人员、ETL工程师、数据仓库工程师(及时需求)、数据分析师、数据展现设计师、 IT支持人员:运维。程序员、生产线数据管原创 2016-03-23 12:52:58 · 1087 阅读 · 0 评论 -
014_HDFS存储架构、架构可靠性分析、副本放置策略、各组件之间的关系
1.HDFS存储架构(1)HDFS 架构 —— 文件1)文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)2)NameNode 是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等3)DataNode 在本地文件系统存储文件块数据原创 2016-03-23 12:52:54 · 1681 阅读 · 0 评论 -
011_Eclipse中使用HDFSFileSystemAPI事例介绍
需求 1.文件操作1)上传本地文件到HDFS2)读取文件3)在hadoopfs中新建文件,并写入4)重命名文件5)删除hadoopfs上的文件2.目录操作1)读取某个目录下的所有文件2)在hadoopfs上创建目录3)删除目录3. HDFS信息1)查找某个文件在HDFS集群的位置2)获取HDFS集群上所有节点名称信息准备工作: 1、新建一原创 2016-03-23 12:52:45 · 1017 阅读 · 0 评论 -
011_用eclipse打开hadoop1.2.1源码出现The method getSplits(JobConf, int) is undefined for the type Object错误
出现的错误截图:此时Eclipse使用的jdk1.8,将编译环境改成jdk1.7就行了,解决。没问题了。下面观点是参考如下网址,未经验证。参考:http://blog.csdn.net/oneinmore/article/details/45332279这些都是泛型相关的错误,因此我猜测是eclipse在解析代码时对于泛型都要临时生成一些类,而这些类的生成方法在不同版本原创 2016-03-23 12:52:40 · 1272 阅读 · 0 评论 -
010_Hadoop配置测试成功后关机重启浏览器打不开dfs和MP
针对Hadoop成功配置并测试通过,第二次(关机重启)后Hadoop打不开的问题,一般都是因为防火墙的问题,将防火墙关闭后就可以了.更细致的现象为start-all.sh启动,五大守护进程启动成功,并且在CentOS的浏览器中能够访问hadoop-master.dragon.org:50070。而到了windows系统中就不能访问了。$sudo service ipstatles stop原创 2016-03-23 12:52:38 · 393 阅读 · 0 评论 -
07_Warning $HADOOP_HOME is deprecated.去除办法
Warning $HADOOP_HOME is deprecated.去除办法 警告的出现:解决方案:第一种:去除【/etc/profile】文件中【export HADOOP_HOME=/opt/modules/hadoop-1.2.1】,并且使其生效,命令如下:# source /etc/profile出现的原因:在 hadoop-config.sh 脚本中,有原创 2016-03-23 12:52:33 · 250 阅读 · 0 评论 -
024_MapReduce中的基类Mapper和基类Reducer
内容提纲1) MapReduce中的基类Mapper类,自定义Mapper类的父类。2) MapReduce中的基类Reducer类,自定义Reducer类的父类。1、Mapper类API文档1) InputSplit输入分片,InputFormat输入格式化2) 对Mapper输出结果进行Sorted排序和Group分组3) 对Mapper输出结果依据Reducer个原创 2016-03-23 12:53:23 · 475 阅读 · 0 评论