![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
紫仙空灵
这个作者很懒,什么都没留下…
展开
-
关于学习Hadoop中未总结的资料
看到这里收藏的资料很多,先摘过来,学到那块看那块,不断深入……原文地址:http://www.cnblogs.com/xia520pi/archive/2012/01/02/2310118.html1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/p转载 2016-12-17 22:33:29 · 291 阅读 · 0 评论 -
Hadoop(一)理论体系
随着人民生活水平的提高,随着各种各类数据指数级的增长,“大数据”、“互联网+”、“云时代”等等各种名词已经成为当今社会的潮流,各种数据分析建立在TB,PB,EB,甚至ZB和YB数量级上,以前看似遥不可及,现在已经屡见不鲜。而如何很好的利用好这些数据,使之为我们产生巨大的商业价值,已经是当今IT界的精英们不断突破的方向。而Hadoop则是如今处理这些问题,最基础,最主流,开源并不断改进的一款分布式系转载 2016-12-17 22:34:29 · 240 阅读 · 0 评论 -
Hadoop(二)——分布式集群搭建
前两天和一个朋友在聊天的时候说,很多自学Hadoop的朋友80%都会夭折在集群环境的搭建上,原因吗无在乎:1,没有很好的电脑配置,不能像机房一样用多台电脑搭建起集群;2,对Linux的不熟悉,各种小黑窗,linux命令……;3,环境搭建的反锁步骤,需要耐心+细心+认真等等吧。不过吗,我觉的,只要敢于坚持,敢于付出都是会成功的。下边讲述一下我的Hadoop集群搭建过程,由于条件有限,也是在虚拟机中进转载 2016-12-17 22:35:29 · 289 阅读 · 0 评论 -
Hadoop(三)——核心之一HDFS
上篇讲述了Hadoop分布式集群环境的搭建,其实重要是HDFS分布式文件系统的搭建,MapReduce主要是需要我们程序员来进行编写算法来进行逻辑运算的。这篇就重点来讲述一下HDFS(HadoopDistribute File System,也就是Hadoop分布式文件系统)。 一、HDFS的主要设计理念: 1、存储超大文件,这里的“超大文件”是指几转载 2016-12-17 22:36:20 · 248 阅读 · 0 评论 -
Hadoop(四)——编程核心MapReduce(上)
上篇讲述了Hadoop的核心内容之一HDFS,是Hadoop分布式的平台基础,而这讲的MapReduce则是充分利用Hdfs分布式,提高运行效率的算法模型,Map(映射)和Reduce(归约)两个主要阶段都以键值对作为输入和输出,我们需要做的就是对这些,value>做我们想要的处理。看似简单实则麻烦,因为这里太灵活多变。 一,好,首先来看下边两个图,看下mapreduce在H转载 2016-12-17 22:37:11 · 227 阅读 · 0 评论 -
Hadoop(五)——核心编程MapReduce(下)
上篇博客最后我们讲述了WordCount的Hadoop官方源码,主要看map类的编写规则,入参(从文件)出参(经过shuffle,combiner过程给reduce),reduce的编写规则,入参(从map类中获取),出参(想要的结果输出到文件中)。下边我们再进一步通过几个例子(在hadoop实战中摘取),来加深map-reduce的编程规则,至于具体到map,reduce内部,如何处理数据,则涉转载 2016-12-17 22:38:42 · 282 阅读 · 0 评论 -
Hadoop(六)——子项目Pig
前边,讲述了Hadoop的两大支柱HDFS和MapReduce,我们通过将大数据的数据文件放在HDFS上,利用Java编写Map-Reduce,来实现数据的各种分析,并预测一些东西,实现大数据的商业价值,从而也体现了Hadoop价值所在。 但是反观传统系统中,我们都是通过数据库进行数据分析的,例如关系型数据库:Oracle,SQL Server,MySQL等,更进一步的通过NO转载 2016-12-17 22:40:02 · 243 阅读 · 0 评论 -
Hadoop(七)——子项目Hive
前边我们介绍了Hadoop项目的两大基础支柱HDFS和MapReduce,随后又介绍了子项目Pig:一种用类似于SQL的、面向数据流的语言对HDFS下的数据进行处理的MapReduce上层客户端,这大大满足了那些不会Java,不会写MapReduce的程序员。但是对于那些以前一直从事Oracle等关系型数据库数据分析的数据分析师,DBA等,还是有些棘手的。而Hadoop的另一个子项目Hive则解决转载 2016-12-17 22:40:52 · 260 阅读 · 0 评论