大数据框架学习
大数据框架知识点学习整理
da_kao_la
这个作者很懒,什么都没留下…
展开
-
Spark知识点整理
Spark知识点整理版本:Spark-2.1.1Spark架构Spark架构主要包含如下角色:Driver: 主计算进程,Spark job的驱动器Executor: 执行器,Worker上的计算进程Cluster Master: 主节点,在standalone模式中为主节点,控制整个集群,监控Worker. 在Yarn模式中充当资源管理器(Resource Manager)Worker: 从节点,负责控制计算节点,启动Executor或DriverDriverSpark的驱动器是执行原创 2020-07-01 20:54:19 · 573 阅读 · 0 评论 -
Hive知识点整理
Hive知识点整理简介Hive解决的问题是海量结构化日志的数据处理基于Hadoop的一个数据仓库工具,将结构化数据映射为一张表,提供HQL的类SQL查询功能Hive的数据存储在HDFS上Hive计算逻辑的底层默认实现是MapReduceHive由Yarn调度Hive相当于Hadoop的客户端,因此是非分布式的优缺点类SQL语法,学习成本低延迟较高,常用于实时性要求不高的场...原创 2020-03-31 13:43:39 · 321 阅读 · 0 评论 -
源码编译安装python2.7替换Hadoop集群的python2.6
背景使用Hadoop streaming + python开发,集群节点的python是python2.6,语法与python2.7略有不同。而我本地和开发机的python版本都是python2.7,考虑到Hadoop streaming支持分发压缩文件到节点,因此打算自己制作一个python2.7的压缩包,上传到HDFS,之后写Hadoop streaming程序都可以使用这个python2....原创 2020-03-23 12:05:59 · 315 阅读 · 0 评论 -
Yarn知识点整理
Yarn知识点整理Yarn是一个资源调度平台,负责为计算框架提供服务器运算资源,相当于一个分布式操作系统平台,而MapReduce相当于应用程序。Yarn在Hadoop2之后引入MapReduce.基本架构ResourceManager:处理客户端请求监控NodeManager状态启动和监控ApplicationManager资源的分配与调度NodeManager:管理...原创 2020-03-22 21:03:45 · 291 阅读 · 0 评论 -
MapReduce知识点整理
MapReduce知识点整理基于版本:Hadoop 2.7.2序列化Q: 为什么Hadoop不使用Java自带的序列化?A: Java自带的序列化框架过于重量级(附带很多额外信息:校验信息、Header、继承体系等),网络传输效率低,所以Hadoop自己实现了序列化机制(Writable接口).自定义可序列化类实现Writable接口反序列化用到反射,需要调用无参数构造方法,因此自...原创 2020-03-17 15:31:14 · 392 阅读 · 0 评论 -
HDFS知识点整理
HDFS知识点整理优缺点优点高容错性:多副本,自动恢复处理的数据规模大:可处理PB级别的文件,可支持百万级数量的文件缺点不适合低延迟的数据访问无法高效存储小文件文件元数据过多,耗尽NameNode内存小文件寻址超过文件读取时间,违背HDFS设计初衷不支持并发文件写入仅支持数据追加,不支持文件随机写组成架构NameNode文件系统的管理者:管理H...原创 2020-03-11 17:55:25 · 352 阅读 · 0 评论