大数据
harderc111
精通是相对的,无知是绝对的,道阻且长
展开
-
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
hadoop生态圈 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:) Pig是一种数据流语言,用来快速轻松的处理巨大的数据。 Pig包含两个部分:Pig Interface,P转载 2017-02-21 14:28:04 · 301 阅读 · 0 评论 -
2分钟读懂Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个转载 2017-02-21 14:31:45 · 374 阅读 · 0 评论 -
MapReduce原理
简介MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每阶段都以键-值对作为输入和输出,其类型由程序员来选择。程序员还需要写两个函数:map函数和reduce函数。数据流Hadoop将作业分成若干个任务(task)来执行,其中包括两类任务:map任务和reduce任务。map阶段数据划分Hadoop将MapReduce的输入数据划分成等长的小数据块,称为输入分片(input...转载 2018-03-06 19:47:55 · 315 阅读 · 0 评论