自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (12)
  • 收藏
  • 关注

原创 Hadoop文件压缩

1. Hadoop的文件压缩需求  文件压缩对于大容量的分布式存储系统而言是必须的,它能带来两个好处:  1)减少了文件所需的存储空间;  2)加快了文件在网络上或磁盘间的传输速度。2. Hadoop支持的压缩格式  首先看一下 Hadoop 常见压缩格式,如DEFLATE、Gzip、bzip2、LZO、LZ4、Snappy等。  1)gzip压缩  优点:压缩率比较高,而且压缩/解压速度也比较快...

2018-04-26 11:45:11 1189

原创 通过Maven管理多个MapReduce项目

1. 配置Maven环境  首先检查Windows是否配置了maven,进入cmd命令行,输入mvn -version命令,如果出现下图所示的 情形则表示满意配置maven。   从浏览器进入maven官网,下载maven压缩包:http://maven.apache.org/download.cgi。下载完后将其解压的一个自定义目录,然后配置环境变量。  进入环境变量配置页面,新建一个MAVEN...

2018-04-25 11:37:07 429

原创 三节点Hadoop集群搭建

1. 基础环境搭建    新建3个CentOS6.5操作系统的虚拟机,命名(可自定)为masternode、slavenode1和slavenode2。该过程参考上一篇博文CentOS6.5安装配置详解 2.Hadoop集群搭建(以下操作中三个节点相同的地方就只给出主节点的截图,不同的才给出所有节点的截图)  2.1 系统时间同步    使用date命令查看当前系统时间    系统时间同步[roo...

2018-04-20 18:07:16 4778

原创 CentOS6.5安装配置详解

1. 环境要求    VMWare软件;    CentOS6.5对应的iso镜像文件(位数对应个人计算机位数)。2. 安装步骤    打开VMWare,文件->新建虚拟机(以下几步默认跳过即可)  命名和选择安装路径  关联镜像文件    启动虚拟机进行安装操作    选择跳过即可    该提示忽略即可,点击OK    选择语言,默认跳过就行    设置主机名选择语言和时区设置root用户...

2018-04-17 10:04:43 3096

原创 YARN的架构及原理

1. YARN产生背景  MapReduce本身存在着一些问题:  1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。  2)JobTracker承受的访问压力大,影响系统的扩展性。  3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink等。  与旧MapReduce相比,YARN采用了一种分层的集群框...

2018-04-15 11:32:07 728

原创 Hadoop实战:微博数据分析

项目需求  自定义输入格式,将明星微博数据排序后按粉丝数 关注数 微博数 分别输出到不同文件中。数据集  下面是部分数据,猛戳此链接下载完整数据集  数据格式: 明星   明星微博名称    粉丝数       关注数   微博数          黄晓明       黄晓明        22616497       506      2011        张靓颖      张靓颖      ...

2018-04-14 21:29:32 2849 1

原创 解决Hadoop无法加载本地库的问题: Unable to load native-hadoop library for your platform

  今天跑Hadoop程序时一直提示我无法加载本地库,然后就直接退出运行了,如下图所示。  原因是由于Apache提供的Hadoop本地库是32位的,而在64位的服务器上就会有问题,因此需要自己编译64位的版本。下载地址:http://dl.bintray.com/sequenceiq/sequenceiq-bin/。请下载好对应版本的.tar包,然后上传到Hadoop集群上,然后分别解压到$HA...

2018-04-14 20:31:56 3463 2

原创 Hadoop实战:用Hadoop处理Excel通话记录

项目需求  有博主与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示。我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件夹。数据集  下面是部分数据,数据格式:编号 联系人 电话 时间。 项目实现  首先,输入文件是Excel格式,我们可以借助poi jar包来解析Excel文件,如果本地没有可以下载:poi-3.9.jar 和 poi-e...

2018-04-12 10:19:37 4696 10

原创 hadoop操作权限问题:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u

  今天想从Eclipse向hdfs上传文件时遇到了一个权限问题,日志如下: ERROR hive.log: Got exception: org.apache.hadoop.security.AccessControlException Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr...

2018-04-12 09:47:32 2129

原创 Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi

  该错误和我的上一篇博文ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary path一样是由于缺少文件引起的,错误日志如下:2018-04-11 16:32:28,514 INFO [org.apache.hadoop.mapreduce.JobSubmi...

2018-04-11 17:24:14 471

原创 ERROR [org.apache.hadoop.util.Shell] - Failed to locate the winutils binary in the hadoop binary pat

错误日志如下:2018-04-11 16:23:26,935 DEBUG [org.apache.hadoop.metrics2.lib.MutableMetricsFactory] - field org.apache.hadoop.metrics2.lib.MutableRate org.apache.hadoop.security.UserGroupInformation$UgiMetric...

2018-04-11 17:23:06 3393

原创 Hadoop 3节点集群无法成功启动zookeeper

  今天在集群上跑程序的时候遇到了zookeeper无法成功启动的问题,先分别启动了主节点和从节点的zookeeper进程,并且通过jps也看到zookeeper进程已经启动了,但通过指令查看进程状态的时候却提示的是没有启动。问题如下面几张图所示:  遇到问题后我立刻查看了进程的相关状态,并关掉进程重启,但是结果任然是不能成功启动。后来想到会不会是因为防火墙的问题,于是查看了以下防火墙的状态。果不...

2018-04-11 16:01:56 906

原创 bash:haoop:command not found

  今天重新搭建了一个3节点的Hadoop集群,想着在上面测试一个MapReduce实例,然后就出现了以下错误:  [hadoop@master hadoop-2.6.0]$ hadoop  -bash: hadoop: command not found  出现这个错误的原因是没有配置环境变量,操作过程如下。  vi /etc/profile //权限不够时再前面加上sudo  进入配置文件后...

2018-04-10 17:07:26 698

原创 eclipse链接Hadoop集群时报错Error:Call From xxx/xxx.xxx.xxx.xxx to hostname1:9000 failed on connection excep

  今天用eclipse连接Hadoop集群的时候突然给我报了这样一个错误:Error:Call From xxx/xxx.xxx.xxx.xxx to hostname1:9000 failed on connection exception:java.net.ConnectException:Connection refused:no further information;...如下图所示:...

2018-04-10 16:11:11 4319 2

原创 No lease on /目录: File does not exist. [Lease. Holder: DFSClient_NONMAPREDUCE_-2059237550_1..]错误及解决方法

  感觉程序员的世界真是一个变幻无常且精彩绝伦的世界,每次跑程序都会发现不一样的问题。今天跑MapReduce程序来统计邮箱次数时遇到了一个问题,明明一样的代码,别人能跑,我却跑不了。我相信,基本做这行的都遇到过这种问题。好了,话不多说,来聊聊今天的错误吧。  根据日志查看到报的错误为:No lease on /目录: File does not exist. [Lease.  Holder: D...

2018-04-02 15:26:15 12157

原创 MapReduce实战:邮箱统计及多输出格式实现

  紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法。项目需求:  假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下(MultipleOutputs)。数据集示例如下所示。  wolys@21cn.com  zss1984@12...

2018-04-02 11:03:58 540

原创 MapReduce的输出格式

1. OutputFormat接口  OutputFormat为输出格式接口,主要用于描述输出数据的格式,它能将输出的键值对写入特定格式的文件中。输出格式的层次结构如下 2. 文本输出  Hadoop默认的输出格式为文本输出格式TextOutputFormat,其键和值可以使任意类型的,因为该输出方式会调用toString()方法将它们转化为字符串。每个键/值对由制表符进行分割,当然也可以设定 m...

2018-04-01 13:15:25 616

spark-2.2.0-bin-hadoop2.6.tgz

spark-2.2.0-bin-hadoop2.6.tgz是用于支持Spark on YARN模式的安装的包

2018-05-12

MuMuInstaller_1.20.2.exe

该模拟器用于在PC端模拟安卓手机,以在电脑上实现安卓手机的功能

2018-05-12

Solid Converter PDF(PDF转Word工具)

该工具包用于PDF到WORD的格式转化,方便大家查看和编辑文档

2018-05-12

SQLyog旗舰版(强烈推荐)

SQL数据库安装包,用于支持MySQL数据库业务开发和数据管理

2018-05-12

zookeeper-3.4.5-cdh5.10.0.tar.gz

zookeeper-3.4.5-cdh5.10.0.tar.gz工具包用于支持hadoop的高可用热备管理

2018-05-12

MAX+plusII(可编程逻辑设计软件,含使用说明)

MAX+plusII是一款可编程逻辑设计软件,可用于开发CPU等硬件系统

2018-05-12

hadoop-auth

该工具包为Hadoop Auth maven依赖包,用于支持hadoop下maven项目开发

2018-05-12

Hadoop-2.2.0源码包

该包用于向Hadoop-2.2.0版本的代码编程提供支持,在eclipse中导入hadoop项目时提供支持

2018-05-12

CISC模型机设计

该设计为基于VHDL语言的CISC模型机,也是一个CPU,资源包含了顶层电路,以及所有元器件的VHDL代码和最后的波形仿真图。

2018-05-07

云打印插件

该资源为云打印的插件,用于在浏览器页面直接连接云打印,实现云打印功能

2018-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除