![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop系统架构
Shaun_Xi
大数据小学生
展开
-
大数据干货系列(五)--Hive总结
Hive总结 一、本质 Hive基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据进行查询、统计和分析。 二、四大特点**• Hive本身不存储数据,它完全依赖HDFS和MapReduce,具有可扩展的存储能力和计算能力• Hive的内容是读多写少,不支持对数据的改写和删除• Hive中没有定义专门的数据格式,由用户指定• Hive是一个SQL解析引擎,将SQL语句转译成MR原创 2018-01-02 15:22:09 · 1039 阅读 · 0 评论 -
大数据干货系列(十)--Kafka总结
本文共计2022字,预计阅读时长十分钟Kafka总结 一、本质一种分布式的、基于发布/订阅的消息系统 二、Kafka的特点– 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java、php、python、c++ ……原创 2018-03-12 13:42:36 · 567 阅读 · 0 评论 -
大数据干货系列(九)--HBase总结
本文共计1058字,预计阅读时长六分钟HBase总结 一、本质HBase是一个开源的非关系型分布式数据库(NoSQL),运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。 二、HBase解决了什么问题对比传统数据库的优势:– 高可靠的海量数据存储– 高并发读写– 面向列,快速随机访问原创 2018-03-12 13:40:24 · 551 阅读 · 0 评论 -
大数据干货系列(八)--Flume总结
本文共计1365字,预计阅读时长六分钟Flume总结 一、本质Flume是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息,从多种不同的数据源到一个集中的数据存储中心二、Flume解决了什么问题• 支持在日志系统中定制各类数据发送方,用于收集数据• Flume提供对数据进行简单处理,并写道各种数据接收方原创 2018-03-12 13:37:36 · 426 阅读 · 0 评论 -
大数据干货系列(七)--Storm总结
大数据干货系列(七)--Storm总结2017-12-29 Shuan Xi 爱上终身学习本文共计1661字,预计阅读时长十分钟Storm总结 一、本质Storm 是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。 二、Storm解决了什么问题1.实时数据分析需求– 实时报表动态展现– 数据流量波动状态– 反馈系统2.时效性– 秒级处理完成数据3.增量式处理– 数据来一条,处理一条 三、H...原创 2018-03-12 13:33:10 · 224 阅读 · 0 评论 -
大数据干货系列(四)--ZooKeeper总结
ZooKeeper总结 一、本质ZooKeeper 是一个为分布式应用提供一致性服务的软件。 二、ZooKeeper解决了什么问题1. 分布式系统的一致性问题2. 分布式系统的容灾容错3. 分布式系统的执行顺序问题4. 分布式系统的事务性问题 三、ZooKeeper的系统架构1. 领导者原创 2017-12-29 23:26:49 · 746 阅读 · 0 评论 -
大数据干货系列(三)-- Hadoop2.0总结
Hadoop2.0总结 一、本质Hadoop2.0,相比于Hadoop1.0,最明显的区别是YARN系统和HDFS2.0的新特性二、Yarn解决了什么问题1. 降低运维成本和数据共享成本2. 减小了 JobTracker(也就是现在的 RM)的负担3. 使得多种计算框架可以运行在一个集群中4. 资源表示成内存量,解原创 2017-12-29 23:25:32 · 392 阅读 · 0 评论 -
大数据干货系列(二)--HDFS1.0
一、本质HDFS(Hadoop Distributed File System)是一种适合运行在通用硬件上的分布式文件系统 二、HDFS解决了什么问题1.海量数据存储和吞吐2.write-once-read-many存取模式(无数据一致性问题)3.高度容错4.处理非结构化数据 三、系统架构1. NameNode原创 2017-12-29 23:22:10 · 401 阅读 · 0 评论 -
Spark中RDD、DataFrame和DataSet的区别 ?
今天的三个问题是:1.Spark1.0和2.0有什么区别?(真心不想重装2.0,但是没有办法啊)2.Spark RDD、DataFrame和DataSet的区别 ?(往期第33题写过一次,但没有解释清楚)3.如何选择RDD还是DataFrame/DataSet?话不多说,直接上干货,最后附上了原文参考文献,觉得有翻译不到位的地方可以看看原文,欢迎各位指出更正。首先,Spark RDD、DataFr...原创 2018-01-13 13:16:16 · 20318 阅读 · 6 评论 -
大数据干货系列(一)--MapReduce总结
MapReduce总结 一、本质MapReduce是一个基于分治思想,用于处理海量数据的分布式计算框架。 二、mapreduce解决了什么问题1.数据分布式存储-HDFS2.作业调度3.容错4.机器间通信等复杂问题 三、分布式计算vs单机计算 四、MapReduce执行流程原创 2017-12-28 09:20:27 · 713 阅读 · 0 评论 -
大数据干货系列(七)--Storm总结
Storm总结 一、本质Storm 是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。 二、Storm解决了什么问题1.实时数据分析需求– 实时报表动态展现– 数据流量波动状态– 反馈系统2.时效性– 秒级处理完成数据3.增量式处理– 数据来一条,处理一条 三、Hadoop vs Storm1.Storm任务没有结束,Hadoop任务执行完结束2.Storm延时更低,得益于网络直传、内存计原创 2018-01-02 15:26:02 · 600 阅读 · 0 评论 -
大数据干货系列(六)--Spark总结
Spark总结一、本质 Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程 二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和reduce两个原语4.缺乏作业流描述,一项任务需要多轮mr 三、spark解决了什么问题1.最大化利用内存cache2.中间结果放内存,加原创 2018-01-02 15:24:33 · 793 阅读 · 0 评论 -
大数据干货系列(十一)--Spark Streaming总结
本文共计902字,预计阅读时长六分钟Spark-Streaming总结一、本质Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、Spark Streaming和Spark Core2.1 逻辑关系:2.2 物理关系:1) DStream:SparkStreaming提供...原创 2018-05-02 22:36:37 · 532 阅读 · 0 评论