![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
阳光6号
这个作者很懒,什么都没留下…
展开
-
HBase的特点和体系架构
1、HBase能做什么a、海量数据的存储 b、准实时查询2、HBase业务场景a、交通 b、金融 c、电商 d、移动 等3、HBase特点a、容量大 b、面向列 c、多版本d、稀疏性 e、扩展性 f、高可靠性 g、高性能(LSM数据结构)4、如何选择合适的版本考虑因素:稳定性a、官网版本 b、CDH版本5、HBase在Hadoop生态系统的定位:6、HBase体系...原创 2020-04-10 09:52:38 · 420 阅读 · 0 评论 -
Hadoop安装与配置
一、Google三大数据技术1、MapReduce BigTable HDFS大数据处理技术:批数据处理技术 --> MapReduce流数据处理技术 --> Storm大图数据处理技术 --> Pregel二、Hadoop的功能与优势1、组成: a、HDFS:分布式文件系统 存储海量数据b、MapReduce: 并行处理框架 实现任务分解与调度2...原创 2020-04-10 09:49:18 · 91 阅读 · 0 评论 -
MapReduce运行流程
一、原理分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)二、MapReduce运行流程1、基本概念a、Job & Task 一个job分为多个Task Task又分为MapTask和ReduceTaskb、JobTrackerc、TaskTrackerJobTracker的角色:a、作业调度b、分配任务 监控任务的执行进度...原创 2020-04-10 09:37:55 · 171 阅读 · 0 评论 -
分布式系统,NoSql与关系型数据库的比较
一、分布式系统CAP理论:1、Consistency: 一致性 :系统中所有节点的数据状态(版本) 是相同的2、Avalibility 可用性 :系统会处理和响应每个请求 24x73、Partition-tolerance 分区可容忍性:如果一些节点宕机或者网络故障 还能提供服务水平扩张:1、数据分片2、数据冗余一致性:1、最终一致性2、强一致性P是必须的 C和A具...原创 2020-04-10 09:32:30 · 1800 阅读 · 0 评论 -
HDFS的应用
背景:2002年 起源于Apache Nutch2004年 借鉴Google GFS, 开发Nutch MapReduce2004年 借鉴Google MapReduce 开发Nutch MapReduce2006年 成为Lucene下的独立子项目 改名为Hadoop2008年 Hadoop成为Apache的顶级项目一、基本概念1、块 block :是文件存储处理的逻辑单元 默认一...原创 2020-04-10 09:26:03 · 602 阅读 · 0 评论