Hadoop
秋水长天q
路曼曼其修远兮,吾将上下而求索
展开
-
Java API操作HDFS
可以利用命令的方式操作HDFS,但是更多的是在程序总通过提供的API来操作文件系统。本文只讨论通过Java来操作我们的HDFS。原创 2016-11-09 21:10:22 · 847 阅读 · 0 评论 -
Hadoop之倒排索引
倒排索引是文档检索中最为常用的数据结构,根据单词来查看在文档中出现的频率。通常情况下,倒排索引由一个单词以及与其相关的文档列表组成。在Hadoop学习过程中,倒排索引是经常会出现的一个MapReduce实例,本文将会给出一个倒排索引mapreduce实现的实例。原创 2016-11-16 22:35:04 · 1290 阅读 · 0 评论 -
MapReduce实现KNN
不正之处,欢迎指正。 KNN算法称为K近邻分类算法,是最简单的分类器,KNN算法从训练集中找到和测试数据距离最近的K个记录,然后根据这K个记录的标记来决定测试实例的最终标记。MapReduce作为一种大数据环境下的计算模型,在分布式计算中具有其独特的优势,本文主要在hadoop框架下面实现KNN算法。 实验环境:centos6.5+hadoop2.2.0原创 2017-03-20 16:08:15 · 4793 阅读 · 4 评论 -
Hadoop实现定制的Writeable集合
Hadoop提供的Writeable实现可以满足大部分的需求,但是在有些情况下,我们需要根据自己的需求来构造一个全新的实现,根据自定义的Writeable类型,我们可以完全控制二进制表示和排序操作,通过实现WriteableComparable接口来完成原创 2016-11-14 11:29:34 · 1468 阅读 · 0 评论 -
MapReduce之shuffle
MapReduce作为Hadoop的核心之一,是一种经典的大数据计算框架,在MapReduce编程中,涉及到Key和Value的选择。在MapReduce中确保每个Reduce的输入都是按照键排序的。系统按照键排序的过程称之为shuffle,shuffle属于不断被优化和该进代码库的一部分原创 2016-11-15 16:12:47 · 836 阅读 · 0 评论 -
搭建hadoop集群
之前一直用的是hadoop伪分布式来测试程序实例,于是在自己的电脑上用虚拟机搭建了一个3台的集群,主要是熟练一下搭建过程,仅供学习。1 环境说明centos6.5 hadoop2.6.42 修改主机名和ip分别在/etc/sysconfig/network 和/etc/hosts文件下修改主机名和ip地址,之后重新启动系统。主机名和ip的对应关系如下所示:原创 2017-04-21 16:45:05 · 644 阅读 · 0 评论