大数据基础
HanZee
过去不追究,未来不将就。
展开
-
大数据专业必会的面试基础知识点。
1、hsfs集群有两类节点(管理节点-工作节点)的运行模式,即一个namenode与多个datanode。2、客户端(client)代表用户通过与namenode和datanode交互来访问整个系统,客户端提供一个类似于posix(可以移植操作系统界面)的文件系统接口,因此用户不需要知道datanode与namenode也可以实现其功能。原创 2022-10-19 21:03:26 · 209 阅读 · 0 评论 -
大数据基础:SparkWordCount
大数据基础:sparkWordCount实现本次实验基于pyspark新建一个data.txt文件用于本次实验hello this is a spark demo!welecome to herea hot dayhot本地读取文件#读取本地文本文件lines = sc.textFile("data.txt")#通过flatMap操作把所有数据转行成rdd,把数据压成一列result = lines.flatMap(lambda line : line.split(' ')resul原创 2022-03-03 23:10:14 · 1729 阅读 · 0 评论 -
大数据基础:进程与线程的浅显理解
进程与线程一个进程包括多个线程。不同进程之间数据很难共享。同一个进程下的不同线程数据很容易共享。进程比线程消耗更多计算机资源。进程之间互不影响,但是一个进程挂掉,他所在的整个进程都会挂掉。进程可以拓展到多机,适合多核与分布式。进程使用的内存地址可以限定使用量...原创 2021-12-26 17:07:05 · 716 阅读 · 0 评论 -
大数据基础:为什么HDFS(分布式文件系统)不适合批量存储小文件
大数据基础:问什么HDFS(分布式文件系统)不适合批量存储小文件1.小文件数量过多(例如图片)会占用批量占用namenode的内存,浪费block,因为每个储存在HDFS中的文件的元数据(包括目录树,位置信息,命名空间镜像,文件编辑信息)都会在namenode中占用150b的内存,如果namenode存储空间满了,就不能继续存储新文件了。2.如果有多小文件,会造成寻道时间>=读取文件时间(传输文件时间=寻道时间+读取文件时间),这与HDFS的原理想违背,hdfs的设计是为了减小寻道时间,是其远小于原创 2021-11-21 19:19:38 · 3245 阅读 · 0 评论 -
大数据基础:HDFS(分布式文件系统)中,NameNode与DataNode的区别
大数据基础:HDFS(分布式文件系统)中,NameNode与DataNode的区别概述DataNodeNameNode概述1、hsfs集群有两类节点(管理节点-工作节点)的运行模式,即一个namenode与多个datanode。2、客户端(client)代表用户通过与namenode和datanode交互来访问整个系统,客户端提供一个类似于posix(可以移植操作系统界面)的文件系统接口,因此用户不需要知道datanode与namenode也可以实现其功能。DataNodedatanode是文件系原创 2021-11-21 17:29:36 · 4409 阅读 · 0 评论 -
大数据基础:HDFS(分布式文件系统)前置知识,吞吐量,数据块,并发
大数据基础:HDFS(分布式文件系统)前置知识吞吐量数据块并发吞吐量首先在书面解释时,速率是额定或标称的,但是实际传输时,其实不稳定的,吞吐量就是取平均值。假设你从学校骑电动车回家,这条公路限速80km/h,这就可以理解成“带宽”,也就是“最高传输速率”。所骑电动车厂家宣称最高时速30km/h,这可以理解成“速率”,也就是“额定速率或标称速率”。但是你不可能全程以30km/h速度行驶,可能会碰到红灯或者堵车,这时你的速度就会放慢了,这条路的长度除以你行驶时间所得平均行驶速度,就可以理解成“吞吐量”。数原创 2021-11-20 14:53:10 · 1473 阅读 · 0 评论