hadoop
文章平均质量分 87
~小龙~
勇往直前,不停奋斗!!!
展开
-
Hadoop(一)理论体系
随着人民生活水平的提高,随着各种各类数据指数级的增长,“大数据”、“互联网+”、“云时代”等等各种名词已经成为当今社会的潮流,各种数据分析建立在TB,PB,EB,甚至ZB和YB数量级上,以前看似遥不可及,现在已经屡见不鲜。而如何很好的利用好这些数据,使之为我们产生巨大的商业价值,已经是当今IT界的精英们不断突破的方向。而Hadoop则是如今处理这些问题,最基础,最主流,开源并不断改进的一款分布式系原创 2015-08-25 23:52:17 · 2468 阅读 · 5 评论 -
Hadoop(二)——分布式集群搭建
前两天和一个朋友在聊天的时候说,很多自学Hadoop的朋友80%都会夭折在集群环境的搭建上,原因吗无在乎:1,没有很好的电脑配置,不能像机房一样用多台电脑搭建起集群;2,对linux的不熟悉,各种小黑窗,linux命令……;3,环境搭建的反锁步骤,需要耐心+细心+认真等等吧。不过吗,我觉的,只要敢于坚持,敢于付出都是会成功的。下边讲述一下我的Hadoop集群搭建过程,由于条件有限,也是在虚拟机中进原创 2015-08-27 00:35:34 · 2892 阅读 · 4 评论 -
Hadoop(三)——核心之一HDFS
上篇讲述了Hadoop分布式集群环境的搭建,其实重要是HDFS分布式文件系统的搭建,MapReduce主要是需要我们程序员来进行编写算法来进行逻辑运算的。这篇就重点来讲述一下HDFS(HadoopDistribute File System,也就是Hadoop分布式文件系统)。 一、HDFS的主要设计理念: 1、存储超大文件,这里的“超大文件”是指几百MB、GB甚至TB,PB级别的原创 2015-08-28 00:06:09 · 5731 阅读 · 9 评论 -
关于学习Hadoop中未总结的资料
看到这里收藏的资料很多,先摘过来,学到那块看那块,不断深入……原文地址:http://www.cnblogs.com/xia520pi/archive/2012/01/02/2310118.html1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/pwcrab/blog/static/转载 2015-08-19 15:52:16 · 1775 阅读 · 1 评论 -
Hadoop(四)——编程核心MapReduce(上)
上篇讲述了Hadoop的核心内容之一HDFS,是Hhadoop分布式的平台基础,而这讲的MapReduce则是充分利用Hdfs分布式,提高运行效率的算法模型 ,Map(映射)和Reduce(归约)两个主要阶段都以键值对作为输入和输出,我们需要做的就是对这些,value>做我们想要的处理。看似简单实则麻烦,因为这里太灵活多变。 一,好,首先来看下边两个图,看下mapreduce在Hadoo原创 2015-09-09 00:07:51 · 4859 阅读 · 5 评论 -
Hadoop(五)——核心编程MapReduce(下)
上篇博客最后我们讲述了WordCount的hadoop官方源码,主要看map类的编写规则,入参(从文件)出参(经过shuffle,combiner过程给reduce),reduce的编写规则,入参(从map类中获取),出参(想要的结果输出到文件中)。下边我们再进一步通过几个例子(在hadoop实战中摘取),来加深map-reduce的编程规则,至于具体到map,reduce内部,如何处理数据,则涉原创 2015-09-13 23:12:32 · 3085 阅读 · 5 评论 -
Hadoop(六)——子项目Pig
前边,讲述了Hadoop的两大支柱HDFS和MapReduce,我们通过将大数据的数据文件放在HDFS上,利用Java编写Map-Reduce,来实现数据的各种分析,并预测一些东西,实现大数据的商业价值,从而也体现了Hadoop价值所在。 但是反观传统系统中,我们都是通过数据库进行数据分析的,例如关系型数据库:Oracle,SQL Server,mysql等,更进一步的通过NO SQL数据原创 2015-09-16 00:15:07 · 6529 阅读 · 3 评论 -
Hadoop(七)——子项目Hive
前边我们介绍了Hadoop项目的两大基础支柱HDFS和MapReduce,随后又介绍了子项目Pig:一种用类似于SQL的、面向数据流的语言对HDFS下的数据进行处理的MapReduce上层客户端,这大大满足了那些不会Java,不会写MapReduce的程序员。但是对于那些以前一直从事Oracle等关系型数据库数据分析的数据分析师,DBA等,还是有些棘手的。而Hadoop的另一个子项目Hive则解决原创 2015-10-19 23:43:04 · 3286 阅读 · 2 评论