大数据
文章平均质量分 50
乱炖-l
这个作者很懒,什么都没留下…
展开
-
Windows下配置Python编写Spark程序
环境版本Anaconda 4.10.1Spark版本2.4.31.先安装Anaconda,不赘述。2.安装Spark2.1下载Sparkspark下载地址选择2.4.3下载2.2安装Spark解压至目录D:\spark-2.4.3-bin-hadoop2.7。在D:\spark-2.4.3-bin-hadoop2.7\conf文件夹下,复制一份log4j.properties.template并改名为log4j.properties,修改日志级别如下:log4j.rootC原创 2021-05-26 15:27:15 · 250 阅读 · 0 评论 -
Kafka高效读写数据原理
Kafka能够实现高效的数据读写,主要是有下面一些原因:顺序写磁盘 当kafka接收到生产者传递过来的消息后,kafka是直接将数据追加到log文件中的,属于顺序写文件,对于同样的磁盘来说顺序写文件的效率要大大高于随机写文件。应用Pagecache kafka将数据直接持久化到pagecache中,其实就是内存中,这样有几个优点:I/O Scheduler可以将多个小块的写组装成大块的写操作,降低了I/O次数利用空闲内存(非JVM内存),这样可以减少JVM的GC操作消费者可以直接从原创 2020-12-08 22:09:57 · 566 阅读 · 0 评论 -
向YARN提交作业工作流程
1.MapReduce程序提交到客户端节点2.客户端节点向RM申请ApplicationMaster,(每一个任务都会对应一个ApplicationMaster,这个ApplicationMaster负责后续任务的运行),RM告知客户端资源上传路径,这里上传资源到HDFS是因为要运行的程序需要共享到其它节点,而HDFS上的资源是可以被节点共享的。3.客户端将资源上传至目标路径。4.资源提交完毕后,客户端申请RM运行ApplicationMaster。5.RM将运行ApplicationMaster.原创 2020-12-01 15:59:03 · 215 阅读 · 0 评论 -
MapReduce的数据切片和并行度
简介MapReduce主要分为两个阶段,map阶段和reduce阶段。而map阶段的数据主要是交给MapTask来进行处理,同样reduce阶段主要是交给ReduceTask来处理。那么在这两个阶段中启动多少个Task将直接影响数据处理的效率,下面分别介绍影响这两个阶段Task数量的因素以及如何设置Task数量。MapTask的数量在介绍一个任务中MapTask数量之前要先介绍一下分片的概念。一个...原创 2020-11-30 15:56:34 · 300 阅读 · 0 评论 -
HDFS中NameNode和Secondary NameNode
NameNode和SecondaryNameNode工作机制NameNode主要是存放一些元数据信息,那么这些元数据信息如果存放在磁盘中,每次请求都去磁盘中查找元数据,这样效率很慢,所以在Hadoop中元数据都是存放在内存中的。这样会带来一个问题,如果掉电,内存中的数据就没有了,所以为了保证元数据的安全性,所以需要对内存中的元数据进行备份。所以磁盘中就产生了备份数据FsImage。但是这样还是会出现另一个问题,那就是当我们更新了内存中的元数据,就需要同时更新FsImage,这样会导致效率很低。此时引入了E原创 2020-11-29 19:55:47 · 232 阅读 · 0 评论 -
HDFS的读写机制
HDFS写数据流程1.客户端向NameNode发送上传文件的请求,NameNode会检查上传的文件是否存在,路径是否合法。2.当客户端的上传请求通过检查后,NameNode会响应客户端允许上传文件。3.客户端将待上传文件按照默认数据块大小进行分块,然后请求NameNode上传第一个数据块,让NameNode返回数据块存储节点。4.NameNode返回数据块存储的节点dn1、dn2和dn3,一般设置几个副本,将会返回几个节点。5.客户端向dn1请求建立数据上传通道,然后dn1调用dn2,dn2调用原创 2020-11-29 16:36:42 · 98 阅读 · 0 评论 -
Hadoop的组成
简介Hadoop是一个分布式系统的基础框架,现在主要是指Hadoop大数据处理生态圈,在这个生态圈中有很多大数据处理框架,其中组成Hadoop的最核心框架有三个MapReduce、YARN和Hdfs,分别是分布式计算框架、资源调度框架和分布式文件系统。HDFSHDFS是一个分布式文件系统,主要的作用是用来解决海量数据的存储问题,将很多台机子联合起来组成一个大的文件系统,这个文件系统的存储容量可以根据机子节点的数量动态的扩容和减少。这些联合起来的机子我们称为集群,集群中的单个机子称为节点。集群中的每原创 2020-11-29 15:00:20 · 833 阅读 · 0 评论 -
Linux中修改文件权限
文件属性首先Linux是一个多用户操作系统,所以不同的用户对于同一个文件拥有不同的权限,使用ll指令可以查看一个文件的详细属性,如下图:其中文件类型与权限中的第一位如果是 d 则代表是目录,如果是 - 代表这是个文件。r 代表读权限,w 代表写权限,x 代表执行权限。改变文件权限有两种方式改变文件的权限第一种:chmod [ugoa] [+_=] [rwx] [文件],其中第一个参数u代表属主,g代表属组,o代表其他用户,a代表所有。第二个参数+是增加权限,-是减少权限,=直接赋予什么权限原创 2020-11-28 14:58:33 · 420 阅读 · 0 评论 -
Linux中VI/VIM编辑器
简介VI是Linux中最为常用的编辑器,VIM是VI的升级版同时完全兼容VI,VIM字体有颜色的变化,可以更加方便的辨别语法的正确性。VI/VIM编辑器一共有三种模式一般模式:进入VI/VIM后编辑器默认是这种模式,这个模式下可以根据上下键以及快捷键移动光标,也可以复制,删除某些行的内容,但是不能插入内容到文本之中。编辑模式:在一般模式下按下insert键或者i键可以进入编辑模式,主要可以用来对文本进行一些编辑工作,编辑完毕之后需要按下Esc键回到一般模式,如果想要保存文件需要进入命令模式。命原创 2020-11-27 18:51:20 · 78 阅读 · 0 评论 -
Linux中文件目录结构
Linux中文件目录结构只介绍几个比较重要的文件目录/usr/bin:放置着经常使用的命令。/usr/sbin:其中的s指的是spuer user的意思,里面存放的是系统管理员使用的系统级别程序。/home:Linux是多用户系统,每个普通用户都有一个自己的文件夹,这个文件夹就放在这个目录下面,并且一般是以用户名命名。/root:这个是系统管理员的目录。/etc:所有系统管理的配置文件都放在这个目录下面。/usr:这个目录可以类比于Windows的program files目录,很多应用程序原创 2020-11-27 18:07:48 · 149 阅读 · 0 评论 -
CentOS 7安装以及网络配置
CentOS 7安装1.安装虚拟机2.虚拟机的网络配置3.CentOS 7系统安装4.CentOS 7开启网络、关闭防火墙以及设置静态IP1.安装虚拟机新建虚拟机hadoop101建议修改虚拟机名称和存放位置。关于处理器和内存根据自己电脑配置修改。放入centos 7的iso文件2.虚拟机的网络配置虚拟机的网络配置主要分为两种,第一个就是桥接模式,第二个是NAT模式。桥接模式:可以让虚拟机直接连接到本地局域网,并且同一局域网内的其他机器也能够访问这台虚拟机,这种网络原创 2020-11-27 14:29:07 · 961 阅读 · 0 评论