
大数据
学习笔记
Michael阿明
两个孩子的父亲,机械工程师,准备转行人工智能方向,一起加油吧!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
-
原创 为何Spark更高效?
learn from 从0开始学大数据(极客时间)Spark 的计算阶段Hadoop MapReduce 简单粗暴地根据 shuffle 将大数据计算分成 Map 和 Reduce 两个阶段,然后就算完事了。而 Spark 更细腻一点,将前一个的 Reduce 和后一个的 Map 连接起来,当作一个阶段持续计算,形成一个更加优雅、高效的计算模型,虽然其本质依然是 Map 和 Reduce。但是这种多个计算阶段依赖执行的方案可以有效减少对 HDFS 的访问,减少作业的调度执行次数,因此执行.2021-02-26 23:57:5824
0
-
原创 我们并没有觉得MapReduce速度慢,直到Spark出现
learn from 从0开始学大数据(极客时间)Spark 拥有更快的执行速度更友好的编程接口迅速抢占 MapReduce 的市场份额,成为主流的大数据计算框架val textFile = sc.textFile("hdfs://...")// 根据 HDFS 路径生成一个输入数据 RDDval counts = textFile.flatMap(line => line.split(" ")) // 每一行文本用空格拆分成单词 .ma.2021-02-26 00:31:5333
0
-
原创 Hive是如何让MapReduce实现SQL操作的?
learn from 从0开始学大数据(极客时间)1. MapReduce 实现 SQL 的原理SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;实现过程:2. Hive 的架构Hive 能够直接处理我们输入的 SQL 语句(Hive SQL 语法与 标准SQL 略有差异)3. Hive join 操作SELECT pv.pageid, u.age FROM page_view pv JOIN user .2021-02-24 00:06:1741
0
-
原创 Yarn 资源调度框架
learn from 从0开始学大数据(极客时间)Hadoop 主要是由三部分组成:分布式文件系统 HDFS分布式计算框架 MapReduce分布式集群资源调度框架 YarnYarn 的架构2021-02-23 21:44:1335
0
-
原创 MapReduce 计算框架如何运作
learn from 从0开始学大数据(极客时间)1. MapReduce 作业启动和运行机制作业涉及三类关键进程:大数据应用进程这类进程是启动 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群(JobTracker 进程)JobTracker 进程这类进程根据输入数据量,命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务,并管理整个作业生命周期的任务调度和监.2021-02-23 21:21:1322
0
-
原创 MapReduce既是编程模型又是计算框架
learn from 从0开始学大数据(极客时间)MapReduce 编程模型包含 Map 和 Reduce 两个过程map 的主要输入是一对 <Key, Value> 值,输出一对 <Key, Value> 值将相同 Key 合并,形成 <Key, Value 集合 >再将这个 <Key, Value 集合 > 输入 reduce,输出零个或多个 <Key, Value> 对// 计算单词数量的 MapReduce 版本pu.2021-02-23 20:21:1622
0
-
原创 HDFS依然是存储的王者
learn from 从0开始学大数据(极客时间)1. HDFS 架构DataNode 负责数据的存储、读写,HDFS 将文件分割成若干数据块(Block),每个 DataNode 存储一部分数据块,文件就分布存储在整个 HDFS 服务器集群中NameNode 负责分布式文件系统的元数据(MetaData) 管理,也就是文件路径名、数据块的 ID 以及存储位置等信息,相当于操作系统中文件分配表(FAT)的角色2. HDFS 的高可用设计数据存储故障容错对 DataNode 上的数据块.2021-02-22 23:57:07102
2
-
原创 从RAID看垂直伸缩到水平伸缩的演化
learn from 从0开始学大数据(极客时间)大规模数据存储问题:容量问题,数据量超过磁盘容量读写速度,磁盘读写慢数据可靠性,磁盘寿命问题RAID(独立磁盘冗余阵列) 是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力RAID 技术只是在单台服务器的多块磁盘上组成阵列(垂直伸缩)大数据需要更大规模的存储空间和更快的访问速度。将 RAID 思想原理应用到分布式服务器集群上,就形成了 Hadoop 分布式文件系统 H.2021-02-22 22:59:4742
1
-
原创 移动计算比移动数据更划算
learn from 从0开始学大数据(极客时间)数据太大(PB级别),将程序发送到数据所在地方进行计算,比移动数据更划算如何实现的:将大规模数据存储在集群的所有服务器上,(HDFS系统,块存储)大数据引擎根据服务器的计算能力,在每台服务器启动若干分布式任务执行进程待命大数据计算框架编程,打包编程模型,如 Java 的 JAR 包用 Hadoop 或 Spark 执行 JAR 包(解析数据输入路径、大小、数据切分、数据片分配给任务执行进程)任务执行进程,检查是否有对应的程序包,没有则.2021-02-22 22:27:5129
0