Hadoop
鯉鱼
妹妹你大胆地往前走呀
展开
-
Hadoop001存储模型
HDFS 存储模型: 思想:1、化整为0 2、 并行计算 **第一步:**如果一个文件非常非常大,单台服务器的内存无法处理这样一个大文件,无法一次性加载到内存中,可以对文件切割成若干个小文件。 **第二步:**为了达到提升计算效果的目的,可以把切割的小文件分散发送到多台服务器之上,让服务器并行计算小文件,由于每台服务器它所计算得数据量比较小同时他们又是并行的,就可以达到分而治之的目的。 以上即...原创 2019-03-31 20:24:46 · 354 阅读 · 1 评论 -
我是怎样学习Hadoop的
转载自微信公众号hadoop123 通过昨天的初步统计,“Hadoop学习方法”、“Hadoop应用案例”和“Hadoop前景”三个方面最受大家关注。在今后的几篇文章中,我将重点介绍这几方面的内容。 今天简单介绍一下我是如何学习hadoop的。注意,以下仅是个人经验之谈,大家可借鉴学习,也可以一笑置之。 我研二开始接触hadoop,第一个hadoop项目是与华为合作的“商用hadoop原型”,该项...转载 2019-07-26 19:14:35 · 133 阅读 · 0 评论 -
如何高效的阅读hadoop源代码?
转载自董的博客 个人谈谈阅读hadoop源代码的经验。 首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期。 其次,需要注意,阅读Hadoop源代码的效率,因人而异,如果你有足够的分布式系统知识储备,看过类似的系统,则能...转载 2019-07-25 22:24:30 · 125 阅读 · 0 评论 -
HBase架构
BigTable HDFS:分布式文件系统 MapReduce:分布式计算框架 Hive:数据仓库。用来计算分析数据 最下面两层是数据存储 上面两层做数据分析 1、非关系型数据库 cassandra hbase mongodb counchdb 文件存储数据库 Neo4j非关系型图数据库 2、HBase简介: Hadoop Database,是一个高可靠、高性能、面向列(面向列的键值对...翻译 2019-07-22 21:01:12 · 167 阅读 · 0 评论 -
HBase总结
hbase特点 高可靠 高性能 面向列 可伸缩 实时读写 hbase数据量:十亿级别的行、百万级别的列 hbase速度快的原因: 因为它充分利用了内存,优先往内存中写,之后的溢写合并就不再关客户端的事,客户端只负责将数据写到内存中,所以它的速度比较快。 使用了LSM树 缓存机制(写缓存、读缓存) 文件是顺序读写(并非随机读写,不需要磁道的移动寻址时间)(使用get获取数据时,get的底层也是...翻译 2019-07-24 07:52:13 · 263 阅读 · 0 评论 -
HBase优化
Hbase优化 1、表的设计 1.1 预先创建region 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入Hbase时,会按照region分区情况,在集群内做数据的负载均衡。 1...翻译 2019-07-24 12:25:13 · 184 阅读 · 0 评论 -
Hadoop002架构模型
Block的副本放置策略 机柜中除了放置服务器之外还会放置交换机,每个交换机专门为一台机柜配备,用于设备之间通信。 每台机柜有条线,用于连接交换机,直接从交换机跳到服务器点对点的连接。除了配置交换机,机柜中还有一个电源模块,这个电源模块控制机柜的电源输出。电源模块、交换机与机柜中的服务器组成了一个最小的单元,其中一者换了,机柜也就废了,不能与外界通信。 第一个副本:如果客户端和文件恰巧在集群中的一...原创 2019-03-31 22:57:55 · 162 阅读 · 0 评论 -
MapReduce相关的几道面试题
转载自微信公众号hadoop123 现有100TB的用户查询词(从搜索引擎日志中提取出来的),如何用MapReduce计算出现次数最多的K个查询词?如何对你设计的算法进行优化?考虑的优化点有:如果一个查询词出现次数非常多,产生的负载倾斜问题会不会导致你的算法性能非常低下,等等。 现有100TB的网页文档(文档库),很容易统计出每个文档中每两个词(词对)出现频率,设计一个MapReduce算法统计...转载 2019-07-26 19:58:11 · 1070 阅读 · 0 评论