六、大数据技术之hadoop（2）

最新推荐文章于 2024-03-01 11:10:44 发布

free_ygh

最新推荐文章于 2024-03-01 11:10:44 发布

阅读量247

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/free_ygh/article/details/79406725

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

google公司的三篇论文

资源链接：http://blog.csdn.net/zhangt85/article/details/43152843

GFS: Google file system（谷歌公司的文件系统），谷歌分布式文件系统，HDFS（Hadoop Distributed File System）是基于GFS的开源实现，举例，百度云盘

大数据存储面临两个问题，第一，数据量太大，硬盘不够大，第二，数据不够安全，在HDFS中解决第一个问题的方法，多块硬盘存储数据，多个数据节点来存储数据，解决第二个问题的方法，数据冗余

HDFS体系结构中存在三种角色：NameNode, DataNode, SecondaryNameNode, NameNode（名称节点）主要职责是管理和维护整个HDFS体系，接受客户端的请求，维护文件系统的元信息和日志，DataNode（数据节点）主要职责是存储数据，SecondaryNameNode（第二名称节点）主要职责是合并元信息与日志，这里在后面会详细介绍

MapReduce：大数据计算模型，问题来源于PageRank问题（搜索排名问题），核心思想分为两个阶段，先拆分（Map）, 后合并（Reduce）

一个MapReduce任务就是一个Job, 由Map任务和Reduce任务组成，整个MapReduce过程有四对输入输出，都是键值对key-value形式，Map的输出就是Reducer的输入，并且输入输出类型都要实现hadoop的序列化（实现Writable接口），类似于java中的序列化（数据传输），具体过程后面MapReduce程序会谈到

BigTable:大表，NoSql数据库Hbase，大表思想违背了关系型数据库范式的要求，大表当中存在数据的冗余，通过牺牲空间来提高存储时间，大表中可以将所以数据存入一张表中

Hbase是一种面向列的NoSql数据库，而Oracle是面向行的数据库，Hbase在空间上有所浪费，但查询效率很高（面向列族查询），所以适合作查询操作，oracle数据库在增删改的效率会更高

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。