大数据开发
喜鹊先生Richard
眼界之外,是更大的世界。
展开
-
大数据之hadoop简介
大数据之hadoop简介 一、背景信息 Hadoop的思想之源:Google 带给我们的关键技术和思想是谷歌的三篇论文 GFS(存储) Map-Reduce(计算) Bigtable Hadoop创始人,Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。其实他在搜索领域也是有很深的资历的,他曾经是lucene之父。 二...原创 2018-10-22 13:54:04 · 373 阅读 · 0 评论 -
大数据之hadoop分布式存储系统hdfs
大数据之hadoop分布式存储系统hdfs 一、什么是hdfs? hdfs是一款被设计成适合运行在通用硬件上的分布式文件系统。它是一个高容错性的系统,适合部署在廉价的机器上,提供了高吞吐量的数据访问,适合大规模数据集上的应用,放宽了POSIX约束,可以实现流式读取文件系统数据的目的。 二、hdfs架构模型 主要包括以下几部分: 数据本身,block块形式存储 NameNode节点,保存文件元数...原创 2018-10-22 18:44:13 · 1611 阅读 · 0 评论 -
大数据之hadoop分布式计算框架MapReduce
一、MapReduce构成 MapReduce分为两部分,即map和reduce。 其中map是入队(key,value),reduce则是聚合(计算)。 map过程的输出时reduce过程的输入。 需要注意的是这里map中的key是可以重复的,reduce做聚合的时候可以把相同的key放到同一组里,做聚合运算。 二、MapReduce原理分析 map过程: 上图左侧是map的task,其中一个...原创 2018-10-23 18:37:02 · 1090 阅读 · 0 评论