Hadoop / Spark
文章平均质量分 89
集群,就是力量。
samarua
while "live" : print("Loli")
展开
-
【Zookeeper】图解Server集群,妙讲Paxos算法
官方定位Zookeeper是一个开放源码的分布式服务协调组件,是Google Chubby的开源实现。是一个高性能的分布式数据一致性解决方案。他将那些复杂的、容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并提供一系列简单易用的接口给用户使用。我们提取出两个关键词,一个是协调,一个是一致性。...原创 2021-04-06 21:32:03 · 212 阅读 · 0 评论 -
【Spark】深入理解巧妙的RDD设计
相关概念RDD:Resillient Distributed Dataset,弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型DAG:Directed Acyclic Graph,有向无环图,反应RDD之间的依赖关系Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行TaskApplication:用户编写的Spark应用程序Job:应用程序执行时的单位Stage:Job的基本调度单位(Stage也称为TaskSet,即一组Task)原创 2020-12-08 08:34:37 · 540 阅读 · 1 评论 -
【Spark】Spark/SparkStreaming/SparkSQL知识点概述
Spark概述▍Spark初见Spark诞生于美国加州大学伯克利分校Spark是基于内存计算的大数据并行计算框架Spark最大的特点是基于内存的实时计算2013年Spark加入Apache孵化器后发展迅猛,如今已成为Apache基金会最重要的三大分布式开源项目之一(Hadoop、Spark、Storm)2014年打破Hadoop保持的基准排序记录——Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度▍Spark特点速度快:使用DAG执行引擎,以支持循环数据流与内存计算支原创 2020-12-08 08:33:48 · 615 阅读 · 0 评论 -
Hadoop架构再探讨——愈加繁荣的生态(Pig、Tez、Spark、Kafka)
MapReduce 1.0的缺陷▍MapReduce原创 2020-11-24 09:44:13 · 668 阅读 · 0 评论 -
Hadoop架构再探讨——MapReduce的设计改进(新一代资源管理调度框架YARN)
MapReduce 1.0的缺陷▍MapReduce 1.0体系结构(复习)JobTracker —— 监控TaskTracker的健康情况跟踪任务的执行进度、资源使用等,并将这些信息告诉TaskScheduler调度器TaskTracker —— 周期性向JobTracker发送心跳接收JobTracker发送的命令,并执行相应的操作(启动任务、杀死任务等)使用slot等量划分本节点的资源量(CPU、内存等)补充:划分出Map slot + Reduce slot▍MapReduce原创 2020-11-24 09:38:50 · 1021 阅读 · 0 评论 -
Hadoop架构再探讨——HDFS的设计改进(HA高可用+Federation联盟)
总述▍Hadoop1.0的局限与不足抽象层次低,需要人工编写大量代码表达能力有限开发者自己管理作业(Job)之间的依赖关系难以看到程序的整体逻辑延迟高,因此迭代效率低浪费资源(分为Map和Reduce两阶段)实时性差 (适合批处理,不支持实时交互)这里的Hadoop1.0仅指HDFS和MapReduce两个核心组件,不包括生态内的Pig、Hive、HBase等组件▍Hadoop1.0的改进思路Hadoop自身核心组件之一的HDFS的架构设计改进Hadoop自身核心组件之一的原创 2020-11-24 09:35:45 · 585 阅读 · 0 评论 -
【Impala】基于Hive的快速大数据查询引擎——Impala知识点总结
contentImpala简介Impala系统架构Impala核心组件Impala查询执行过程Impala的优缺点Impala与Hive的比较 Impala简介Impala是由Cloudera公司开发的新型查询系统Imapla提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据Impala基于MPP (Massively Parallel Processor ,大规模并行处理)Impala最大的卖点就是——快速.原创 2020-11-13 20:57:19 · 2696 阅读 · 2 评论 -
快速入门数据仓库(Data WareHouse)
在很久很久之前,异世界里生活着许许多多的种族,有人类、有精灵、有兽人,还有哥布林、魔王… 这个异世界的神想要统一的管理这些种族,于是神打造了多个象征权力的戒指,分发给每个种族的首领——这个戒指可以帮助他们更好的管理和控制各自的种族。 而神拥有一个独一无二、至高无上的戒指,从而控制每个种族的领袖,进而控制整个异世界。 这个异世界的每个生命就是一条数据(Data),每个种族首领拥有的戒指就是数据库(Data Base),而那个最独一无二的戒指就是数据仓库(Data W.原创 2020-11-13 21:00:40 · 581 阅读 · 0 评论 -
【Hive】位于Hadoop顶层的数据仓库——Hive知识点总结(图解)
何为数据仓库(Data Warehouse)?▍初见与概念数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。面向主题——从字面意思似乎难以理解,但通过对比就很好解释:与面向主题相对应的是面向应用。比如单纯的一次「支付」就是面向应用,而一整个「交易」就是面向主题集成——集成就是把不同数据源的数据整合到一起,即使数据的类型是不同的。比如一个数据源使用男/原创 2020-11-13 20:56:44 · 634 阅读 · 0 评论 -
【MapReduce】MapReduce知识点总结及实例分析
初见▍ 分布式并行编程大名鼎鼎的摩尔定律告诉我们,CPU性能每18个月翻一番!然而,摩尔定律在21世纪初开始失效;雪上加霜的是,需要处理的数据量在呈几何倍数增长分布式的思想应运而生——将分布式程序运行在廉价的计算机集群上,从而获得海量的计算能力Google最先提出了分布式并行编程模型MapReduce,我们常用的Hadoop MapReduce是它的开源实现,且更加简单易用 >_<▍ 传统并行计算框架 VS MapReduce传统并行计算框架MapRe原创 2020-11-05 09:35:15 · 1142 阅读 · 1 评论 -
【HBase】HBase数据库基本操作(Shell)
检查▶ cd到Hadoop,开启HDFScd /usr/local/hadoop ./sbin/start-dfs.sh▶ cd到Hbase,开启Hbasecd /usr/local/hadoop./bin/start-hbase.sh▶ jsp一下,检查节点是否都正确开启 开启Hbasebin/hbase shell CURD创建表create 'studentInfo', 'Sname', 'Ssex', 'Sage', 'Sdept原创 2020-10-31 22:45:44 · 647 阅读 · 0 评论 -
三分钟了解图数据库
图数据库初见▶ 基本概念:图数据库(Graph Database)是使用图的结构来表现和存储具有图语义的数据,并快速的进行查询的一种数据库▶ 主要组成:节点集 + 连接集(特有)▶ 主要操作:无非是增删改查(create, delete, update, read)▶ 常见图数据库:▶ 图数据库模型:▶ 图数据库模型特征:节点 + 关系节点有属性,关系有属性节点上还有一个或多个标签关系是有方向的单向边 图数据库优势传统关系型数原创 2020-10-19 23:35:16 · 555 阅读 · 1 评论 -
【HDFS】分布式文件系统的常用HDFS操作
0. 启动Hadoopcd /usr/local.hadoop ./sbin/start-dfs.sh1.将本地的house.txt文件上传到HDFS的mydir目录下./bin/hdfs dfs -put ./house.txt mydir2.将HDFS的dir目录下的house.txt下载 到本地./bin/hdfs dfs -get mydir/house.txt file:///usr/local/hadoop3.将HDFS中指定文件(loli.txt)内容原创 2020-10-24 15:09:42 · 558 阅读 · 0 评论 -
一篇文章带你全面理解NoSQL
一·什么是NoSQL?NoSQL可以理解为Not Only Sql,范指非关系型数据库相对于当时铺天盖地的关系型存储,这一概念无疑是一种全新的思维的注入简单的说,NoSQL具有以下特点:灵活的可扩展性;灵活的数据模型;与云计算紧密融合 二·关系型数据库为何“过时”?▶ 关系型数据库已经无法满足Web2.0的需求无法满足海量数据的管理需求无法满足数据高并发的需求无法满足高可扩展性和高可用性的需求▶ One size fits all模式不再好用原创 2020-10-19 08:25:00 · 2213 阅读 · 1 评论 -
【HBase】HBase分布式数据库总结
一·HBase初见▶ 简介HBase是一个高性能、面向列、可伸缩的分布式数据库。HBase是谷歌BigTable的开源实现。HBase的目标是:通过水平扩展的方式,利用廉价计算机集群处理庞大的表。▶ HBase VS 传统关系型数据库(如MySQL)数据类型:关系型数据库拥有丰富的数据类型,HBase采用简单的数据模型(未经解释的字符串)数据操作:关系型数据库各种花里胡哨,HBase只有简单的插入、查询、删除、清空存储模式:关系型数据库基于行,HBase基于列数据更新:关系原创 2020-10-07 21:00:05 · 1642 阅读 · 0 评论 -
【HDFS】Hadoop的分布式文件系统知识点总结
首先,我们需要从整体上了解什么是分布式文件系统 >_<。 分布式文件系统把文件存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。计算机集群听着高大上,其实是由普通硬件组成,硬件开销是极低的!好了,我们已经知道分布式文件系统是由计算机集群上的多个节点组成的——这些节点分为两类:名称节点(NameNode),也称为主节点(MasterNode)数据节点(DataNode),也称为从节点(SlaveNode) 一·HDFS简介▶ H原创 2020-09-27 00:07:41 · 555 阅读 · 0 评论 -
【Hadoop】三分钟快速了解Hadoop
一·Hadoop初见Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop的核心是:分布式文件系统HDFS + 分布式计算模型MapReduceHadoop基于Java,具有很好的跨平台性Hadoop的设计就是为了部署在低廉的计算机集群中开源 二·Hadoop发展与现状Hadoop本来只是Apache的子项目,2008年它成为Apache顶级项目原创 2020-09-26 23:40:53 · 246 阅读 · 0 评论