hadoop
文章平均质量分 66
erygreat
这个作者很懒,什么都没留下…
展开
-
Hadoop1.x安装:完全分布式安装
hadoop1.x的安装原创 2017-07-22 20:08:29 · 3355 阅读 · 0 评论 -
hadoop2.x之HDFS
1.HDFS简介HDFS(有时也成为DFS)是Hadoop的分布式文件系统。他可以将一个文件分布在多个主机上 例如:现在有一个200GB的文件,我们有5台电脑,每台存储为100GB,所以我们在一台电脑上是无法存放该文件的。这时我们就需要将其分区(就是切割成好几块)然后将它分别存储在各个主机上(每个电脑存储40GB的)。这就是HDFS的原理。1. HDFS的特性HDFS的优势:超大文件存储 HD原创 2017-07-27 10:45:09 · 724 阅读 · 0 评论 -
hadoop2.x入门:编写mapreduce对气象数据集求每日最高气温和最低气温
1.下载气象数据集气象数据集下载地址为: - ftp://ftp.ncdc.noaa.gov/pub/data/noaa我们下载国内的气象数据,使用下面命令进行下载wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/5*国内气象站ID区间为50001-59998详细的可以在《19原创 2017-07-23 19:30:04 · 4460 阅读 · 4 评论 -
hadoop2.x之IO:基于文件的数据结构
备注 二进制文件广义上讲是所有文件(在物理上所有文件都是二进制编码)。狭义上是指文本文件以外的文件 。而文本文件又是指ASCII或unicode编码的文件,二者在物理上没有本质的区别,只是逻辑上的概念。所以二进制文件在这里指的是所有文件。Hadoop主要处理日志文件,其中每一行文本代表一条日志记录。在MapReduce的数据处理中,处理结果是用key-value的格式传递给下一过程的。我原创 2017-08-13 09:54:20 · 350 阅读 · 0 评论 -
hadoop2.x之IO:序列化
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。 反序列化是指将字节流转回结构化对象的逆过程。假设我们创建了一个类People,里面两个属性:name和age。在我们JVM没有关闭且该实例没有销毁的时候,我们可以调用这个实例。但是当我们关闭JVM等方式使该实例销毁的时候,我们将无法再使用该实例了。 而序列化实际上就是将其存储起来,例如:以JSON存储成文件,或者X原创 2017-08-13 09:43:38 · 349 阅读 · 0 评论 -
hadoop2.x之IO:MapReduce压缩
前面我们说到了hadoop的压缩,在Hadoop所运行的数据一般都是很大的,输入的数据很大,输出的数据也很大。因此我们有必要对map和Reduce的数据进行压缩存储。如果我们想对Reduce进行压缩,有两种方法,一种是配置使用Configuration配置。另一种是还是用FileOutputFormat类对输出进行设置。1. 对Reduce进行压缩(使用Configuration)使用Configu原创 2017-08-13 09:33:26 · 278 阅读 · 0 评论 -
hadoop2.x之IO:压缩和解压缩
文件压缩可以降低存储需要的空间,并且在传输过程中加快传输速度。因此对于大量数据的处理时,压缩是十分重要的。我们考虑一下Hadoop在文件中的压缩用法。 有许多压缩方式,如下: 压缩格式 工具 算法 文件拓展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2原创 2017-08-13 09:18:50 · 1407 阅读 · 0 评论 -
hadoop2.x入门:在windows上用Eclipse编写程序
虽然有许多人推崇vim编程,但是本人并不习惯vim编程,本人还是比较在window下使用eclipse编程。另外由于本人linux安装的都是最小化安装,没有图形界面,因此使用windows的eclipse编写mapreduce程序远程发送至linux的hadoop下运行。默认已经在linux上装好了Hadoop并且在windows上安装了Eclipse环境1. 在windows上搭建Hadoop环境原创 2017-07-26 09:47:11 · 457 阅读 · 0 评论 -
hadoop 2.x安装:不能加载本地库 - 重新编译hadoop本地库
不能加载本地库 - 重新编译hadoop本地库原创 2017-07-23 10:56:35 · 628 阅读 · 0 评论 -
hadoop 2.x安装:安装结果测试
hadoop2.x安装测试原创 2017-07-23 11:21:04 · 321 阅读 · 0 评论 -
hadoop2.x入门:Hadoop的启动方式
hadoop2.x启动方式原创 2017-07-23 11:52:59 · 367 阅读 · 0 评论 -
hadoop 2.x安装:不能加载本地库 - java.library.path错误
解决hadoop安装中不能加载本地库的问题方法之一原创 2017-07-23 09:57:30 · 634 阅读 · 0 评论 -
Hadoop1.x安装:关于错误没有到主机的路由
Hadoop1.x安装:关于错误没有到主机的路由原创 2017-07-22 20:38:24 · 537 阅读 · 0 评论 -
hadoop 2.x安装:完全分布式安装
1. 安装环境本文使用三台CentOS6.4虚拟机模拟完全分布式环境。 前五个过程和hadoop1.x安装相同1.1. 安装环境 项目 参数 主操作系统 Windows 10 64 bit,8GB内存 虚拟软件 VMware® Workstation 12 Pro 12.5.2 虚拟机操作系统 CentOS6.5 64位 512MB内存 虚拟机数量 3 j原创 2017-07-22 20:52:24 · 609 阅读 · 0 评论