![](https://img-blog.csdnimg.cn/20191015162908506.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据开发
喜鹊先生Richard
眼界之外,是更大的世界。
展开
-
大数据之hadoop简介
大数据之hadoop简介一、背景信息Hadoop的思想之源:Google带给我们的关键技术和思想是谷歌的三篇论文GFS(存储)Map-Reduce(计算)BigtableHadoop创始人,Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作。其实他在搜索领域也是有很深的资历的,他曾经是lucene之父。二...原创 2018-10-22 13:54:04 · 334 阅读 · 0 评论 -
大数据之hadoop分布式存储系统hdfs
大数据之hadoop分布式存储系统hdfs一、什么是hdfs?hdfs是一款被设计成适合运行在通用硬件上的分布式文件系统。它是一个高容错性的系统,适合部署在廉价的机器上,提供了高吞吐量的数据访问,适合大规模数据集上的应用,放宽了POSIX约束,可以实现流式读取文件系统数据的目的。二、hdfs架构模型主要包括以下几部分:数据本身,block块形式存储NameNode节点,保存文件元数...原创 2018-10-22 18:44:13 · 1562 阅读 · 0 评论 -
大数据之hadoop分布式计算框架MapReduce
一、MapReduce构成MapReduce分为两部分,即map和reduce。其中map是入队(key,value),reduce则是聚合(计算)。map过程的输出时reduce过程的输入。需要注意的是这里map中的key是可以重复的,reduce做聚合的时候可以把相同的key放到同一组里,做聚合运算。二、MapReduce原理分析map过程:上图左侧是map的task,其中一个...原创 2018-10-23 18:37:02 · 1031 阅读 · 0 评论