- 博客(17)
- 资源 (12)
- 收藏
- 关注
原创 Hadoop文件压缩
1. Hadoop的文件压缩需求 文件压缩对于大容量的分布式存储系统而言是必须的,它能带来两个好处: 1)减少了文件所需的存储空间; 2)加快了文件在网络上或磁盘间的传输速度。2. Hadoop支持的压缩格式 首先看一下 Hadoop 常见压缩格式,如DEFLATE、Gzip、bzip2、LZO、LZ4、Snappy等。 1)gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快...
2018-04-26 11:45:11 1189
原创 通过Maven管理多个MapReduce项目
1. 配置Maven环境 首先检查Windows是否配置了maven,进入cmd命令行,输入mvn -version命令,如果出现下图所示的 情形则表示满意配置maven。 从浏览器进入maven官网,下载maven压缩包:http://maven.apache.org/download.cgi。下载完后将其解压的一个自定义目录,然后配置环境变量。 进入环境变量配置页面,新建一个MAVEN...
2018-04-25 11:37:07 429
原创 三节点Hadoop集群搭建
1. 基础环境搭建 新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode、slavenode1和slavenode2。该过程参考上一篇博文CentOS6.5安装配置详解 2.Hadoop集群搭建(以下操作中三个节点相同的地方就只给出主节点的截图,不同的才给出所有节点的截图) 2.1 系统时间同步 使用date命令查看当前系统时间 系统时间同步[roo...
2018-04-20 18:07:16 4778
原创 CentOS6.5安装配置详解
1. 环境要求 VMWare软件; CentOS6.5对应的iso镜像文件(位数对应个人计算机位数)。2. 安装步骤 打开VMWare,文件->新建虚拟机(以下几步默认跳过即可) 命名和选择安装路径 关联镜像文件 启动虚拟机进行安装操作 选择跳过即可 该提示忽略即可,点击OK 选择语言,默认跳过就行 设置主机名选择语言和时区设置root用户...
2018-04-17 10:04:43 3096
原创 YARN的架构及原理
1. YARN产生背景 MapReduce本身存在着一些问题: 1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 2)JobTracker承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink等。 与旧MapReduce相比,YARN采用了一种分层的集群框...
2018-04-15 11:32:07 728
原创 Hadoop实战:微博数据分析
项目需求 自定义输入格式,将明星微博数据排序后按粉丝数 关注数 微博数 分别输出到不同文件中。数据集 下面是部分数据,猛戳此链接下载完整数据集 数据格式: 明星 明星微博名称 粉丝数 关注数 微博数 黄晓明 黄晓明 22616497 506 2011 张靓颖 张靓颖 ...
2018-04-14 21:29:32 2849 1
原创 解决Hadoop无法加载本地库的问题: Unable to load native-hadoop library for your platform
今天跑Hadoop程序时一直提示我无法加载本地库,然后就直接退出运行了,如下图所示。 原因是由于Apache提供的Hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本。下载地址:http://dl.bintray.com/sequenceiq/sequenceiq-bin/。请下载好对应版本的.tar包,然后上传到Hadoop集群上,然后分别解压到$HA...
2018-04-14 20:31:56 3463 2
原创 Hadoop实战:用Hadoop处理Excel通话记录
项目需求 有博主与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示。我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件夹。数据集 下面是部分数据,数据格式:编号 联系人 电话 时间。 项目实现 首先,输入文件是Excel格式,我们可以借助poi jar包来解析Excel文件,如果本地没有可以下载:poi-3.9.jar 和 poi-e...
2018-04-12 10:19:37 4696 10
原创 hadoop操作权限问题:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u
今天想从Eclipse向hdfs上传文件时遇到了一个权限问题,日志如下: ERROR hive.log: Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr...
2018-04-12 09:47:32 2129
原创 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi
该错误和我的上一篇博文ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path一样是由于缺少文件引起的,错误日志如下:2018-04-11 16:32:28,514 INFO [org.apache.hadoop.mapreduce.JobSubmi...
2018-04-11 17:24:14 471
原创 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary pat
错误日志如下:2018-04-11 16:23:26,935 DEBUG [org.apache.hadoop.metrics2.lib.MutableMetricsFactory] - field org.apache.hadoop.metrics2.lib.MutableRate org.apache.hadoop.security.UserGroupInformation$UgiMetric...
2018-04-11 17:23:06 3393
原创 Hadoop 3节点集群无法成功启动zookeeper
今天在集群上跑程序的时候遇到了zookeeper无法成功启动的问题,先分别启动了主节点和从节点的zookeeper进程,并且通过jps也看到zookeeper进程已经启动了,但通过指令查看进程状态的时候却提示的是没有启动。问题如下面几张图所示: 遇到问题后我立刻查看了进程的相关状态,并关掉进程重启,但是结果任然是不能成功启动。后来想到会不会是因为防火墙的问题,于是查看了以下防火墙的状态。果不...
2018-04-11 16:01:56 906
原创 bash:haoop:command not found
今天重新搭建了一个3节点的Hadoop集群,想着在上面测试一个MapReduce实例,然后就出现了以下错误: [hadoop@master hadoop-2.6.0]$ hadoop -bash: hadoop: command not found 出现这个错误的原因是没有配置环境变量,操作过程如下。 vi /etc/profile //权限不够时再前面加上sudo 进入配置文件后...
2018-04-10 17:07:26 698
原创 eclipse链接Hadoop集群时报错Error:Call From xxx/xxx.xxx.xxx.xxx to hostname1:9000 failed on connection excep
今天用eclipse连接Hadoop集群的时候突然给我报了这样一个错误:Error:Call From xxx/xxx.xxx.xxx.xxx to hostname1:9000 failed on connection exception:java.net.ConnectException:Connection refused:no further information;...如下图所示:...
2018-04-10 16:11:11 4319 2
原创 No lease on /目录: File does not exist. [Lease. Holder: DFSClient_NONMAPREDUCE_-2059237550_1..]错误及解决方法
感觉程序员的世界真是一个变幻无常且精彩绝伦的世界,每次跑程序都会发现不一样的问题。今天跑MapReduce程序来统计邮箱次数时遇到了一个问题,明明一样的代码,别人能跑,我却跑不了。我相信,基本做这行的都遇到过这种问题。好了,话不多说,来聊聊今天的错误吧。 根据日志查看到报的错误为:No lease on /目录: File does not exist. [Lease. Holder: D...
2018-04-02 15:26:15 12157
原创 MapReduce实战:邮箱统计及多输出格式实现
紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法。项目需求: 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下(MultipleOutputs)。数据集示例如下所示。 wolys@21cn.com zss1984@12...
2018-04-02 11:03:58 540
原创 MapReduce的输出格式
1. OutputFormat接口 OutputFormat为输出格式接口,主要用于描述输出数据的格式,它能将输出的键值对写入特定格式的文件中。输出格式的层次结构如下 2. 文本输出 Hadoop默认的输出格式为文本输出格式TextOutputFormat,其键和值可以使任意类型的,因为该输出方式会调用toString()方法将它们转化为字符串。每个键/值对由制表符进行分割,当然也可以设定 m...
2018-04-01 13:15:25 616
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人