博客专栏  >  云计算/大数据   >  大数据之Hadoop

大数据之Hadoop

让我们一起来学习大数据吧,为改变而做出努力。

关注
11 已关注
14篇博文
  • MapReduce 应用:TF-IDF 分布式实现

    本文要说的 TF-IDF 分布式实现,运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。

    2016-06-24 00:29
    4886
  • MapReduce 进阶:Partitioner 组件

    Partitioner 组件可以让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。如果这么说让你觉得有一些笼统的话,那么本文可能很适合你,因为本文会依据一个具...

    2016-06-21 23:47
    9539
  • Hadoop 核心编程之 HDFS 的文件操作

    本文以代码为主,并附以简短的说明,帮助你理解代码的逻辑,以及一些注意事项。你可以将本文的代码封装成一个工具类,这样以后需要调用时候,就可以复用了。

    2016-06-21 16:37
    3105
  • MapReduce进阶:多路径输入输出

    当我们得意于 MapReduce 从一个数据输入目录,把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案,因为 MapReduce 是支持多路径的输入与输出的。比如,你一个项目中的...

    2016-06-18 21:29
    3188
  • MapReduce进阶:多MapReduce的链式模式

    我们不可能一直沉浸在 WordCount 的成功运行当中,就像之前学习 Java 或是其他编程语言不会着迷于 HelloWord 一样。前面的 WordCount 程序只有一个 Mapper 和一个 ...

    2016-06-18 16:20
    2595
  • 从 WordCount 到文档的倒排索引详解

    在很多大数据的应用场景中我们都有可能看到倒排索引的身影,我第一次接触倒排索引是在学习 Lucene 全文检索框架的时候。本文会从倒排索引开始说明,再补充讲解倒排索引文档及带权重的倒排索引文档。

    2016-06-13 18:10
    8237
  • HBase Shell 的基本操作

    前面写了一些 Hadoop, Zookeeper 及 Hbase 分布式环境搭建的文章。或许你在搭建的过程中遇到了一些不如意的事情,但我相信总是可以解决的。如果你已经完成了环境的搭建,那么就可以尽情玩...

    2016-06-12 15:10
    3134
  • HBase 0.98 分布式集群安装详解

    这篇博客应该很早就发表了,只是当时环境搭建好了之后没有及时做笔记,后来又不想重新搭建,所以才拖到今天。还有就是这篇博客安装的是 Hbase-0.98 的版本,与之前说要安装 0.96 的说明不吻合,这...

    2016-06-08 00:02
    4407
  • ZooKeeper 3.4.5 分布式环境搭建详解

    上一篇中,我们说到了关于 Hadoop-2.2.0 集群的搭建。在这个系列中,Zookeeper 是必不可少的。本文会介绍 Zookeeper-3.4.5 的安装,后面会介绍 HBase-0.96 的...

    2016-05-18 17:25
    4627
  • 从 WordCount 到 MapReduce 计算模型

    虽然现在都在说大内存时代,不过内存的发展怎么也跟不上数据的步伐吧。所以,我们就要想办法减小数据量。这里说的减小可不是真的减小数据量,而是让数据分散开来。分开存储、分开计算。这就是 MapReduce ...

    2016-05-10 23:42
    9745
  • Hadoop 2.2.0 集群搭建

    在前面我有写过关于 Hadoop 集群的搭建,不过之前的 Hadoop 是 1.x 版本的。目前是基于 2.x 版本的 Hadoop,与之前的 1.x 版本的差别还是挺大的。以及更为详细的 SSH 免...

    2016-05-04 17:56
    10324
  • 第一个Hadoop程序——WordCount

    通过前面两篇博客的学习,我们学习了Hadoop的伪分布式部署和完全分布式部署。这一篇文章就来介绍一下Hadoop的第一个程序WordCount。以及在运行代码的过程中遇到的问题。

    2015-07-24 19:22
    5068
  • Hadoop的学习前奏(二)——Hadoop集群的配置

    Hadoop集群的配置即完全分布式Hadoop配置。本文的实验是基于伪分布式Hadoop环境的。这里默认你的系统已经可以安装伪分布式的Hadoop了。如果你的系统还不能安装伪分布式Hadoop,请参考...

    2015-07-24 19:17
    3956
  • Hadoop的学习前奏(一)——在Linux上安装与配置Hadoop

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文就先从安装与配置入手吧。

    2015-07-21 12:02
    2739

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部