hadoop
Crystal_xing
温不增华,寒不改叶
展开
-
hadoop使用场景
大数据量存储:分布式存储 日志处理: Hadoop擅长这个 海量计算: 并行计算 ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库 使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统 机器学习: 比如Apache Mahout项目 搜索引擎:hadoop + lucene实现 数据挖掘:目前比较流行转载 2015-02-22 20:17:39 · 608 阅读 · 0 评论 -
Hadoop到底能做什么?怎么用hadoop?
hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不转载 2015-02-22 20:52:13 · 544 阅读 · 0 评论 -
Hadoop简介(1):什么是Map/Reduce
本帖最后由 pig2 于 2014-2-28 20:41 编辑 看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了。 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper转载 2015-02-23 19:22:23 · 845 阅读 · 0 评论 -
Mapreduce 整个工作机制图
刚才发现一张讲解mapreduce整个工作机制图,跟大家分享一下,大家发表一下建议,对mapreduce工作机制有何看法,或者那里有不清楚。mapreduce每一个工作阶段,对我们在工作中处理某种业务都是有很大帮助的。转载 2015-02-23 19:33:06 · 706 阅读 · 0 评论 -
hadoop HDFS文件系统的特征
存储极大数目的信息(terabytes or petabytes),将数据保存到大量的节点当中。支持很大单个文件。 提供数据的高可靠性,单个或者多个节点不工作,对系统不会造成任何影响,数据仍然可用。 提供对这些信息的快速访问,并提供可扩展的方式。能够通过简单加入更多服务器的方式就能够服务更多的客户端。 HDFS是针对MapReduce设计的,使得数据尽可能根据其本地局部性进行访问与计算。转载 2015-02-23 15:44:37 · 405 阅读 · 0 评论