hadoop
shell33168
这个作者很懒,什么都没留下…
展开
-
JPS命令的总结
1. jps的位置在哪里?在jdk文件夹里面2.对应的进程标识文件在哪里?在/tmp/hsperfdata_进程用户名称 里面3. root用户能够看到所有用户jps结果,普通用户只能看到自己的4.但是root用户看到的结果是假的,我们能只能根据ps -ef|grep 进程名称 来判断进程是否可用。...原创 2019-02-17 17:44:05 · 808 阅读 · 0 评论 -
hadoop HA 架构
集群的好处:每一个角色都是一个进程;HDFS:NN(老大),SNN,DNYARN:RM(老大),NM老大挂了怎么办?大数据所有的组件都是主从架构的 master-slave比如,hdfs读写请求都是先NN节点,但是hbase 读和写的请求不经过老大master,建表语句经过一般配置两个NN节点(实时的,任何时刻只有一台对外,另外一台standby 做实时备份 随时...原创 2019-04-01 23:48:34 · 366 阅读 · 0 评论 -
部署hdfs伪分布式
1.创建用户和上传hadoop软件2.部署jdk注意:解压时用户(组)权限会改变chown -R root:root jdk1.8.0_45配置环境变量#envexport JAVA_HOME=/usr/java/jdk1.8.0_45export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_H...原创 2019-02-15 09:13:09 · 216 阅读 · 0 评论 -
Yarn伪分布式部署
MapReduce用来计算的,是jar包提交到Yarn上的,本身不需要部署;Yarn是用来资源和作业调度的,需要部署MapReduce on Yarn 部署过程:1. 配置mapred-site.xml<configuration> <property> <name>mapreduce.framework.na...原创 2019-02-17 18:06:31 · 282 阅读 · 0 评论 -
HDFS读写流程
HDFS写流程写操作对操作者是无感知的。 client调用FileSystem.create(file path)方法,去与NN进行 RPC 通信,check该路径的文件是否存在以及有没有权限创建该文件。假如ok,就创建一个新文件,但是不关联任何的block,nn根据上传的文件大小和副本数计算多少块,以及块存放的dn,最终将这些信息返回给客户端,则为FSDataOutp...原创 2019-02-21 07:37:22 · 142 阅读 · 0 评论 -
HDFS架构设计
目录1.hosts文件2.web页面解读3.块block4.HDFS架构设计nn-->文件系统的命名空间(面试题):dnSNN 1.hosts文件linux host文件的配置window host文件的配置 hadoop:如果是vm/内网机器,直接配内网ip; 如果是云主机,直接配外网ip。ti...原创 2019-02-19 06:06:04 · 194 阅读 · 0 评论 -
MapReduce优化----Shuffle过程剖析及性能优化
shuffle的过程图 1. Map端当Map 开始产生输出时,它并不是简单的把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先是写到内存中的一个缓冲区,并做了一些预排序,以提升效率。每个Map 任务都有一个用来写入输出数据的循环内存缓冲区。这个缓冲区默认大小是100MB,可以通过io.sort.mb 属性来设置具体大小。当缓冲区中的数据量...原创 2019-02-26 04:29:17 · 220 阅读 · 0 评论 -
mr on yarn架构
map:映射; reduce:规约MR on Yarn架构== Yarn的架构 == mapreduce job执行流程MapReduce的流程(面试):用户向yarn提交应用程序(job),包括applicationMaster程序、启动applicationMaster命令等; RM为该job分配第一个容器,并与对应的nm通信,要求它在这个容器中去启动job的applicat...原创 2019-02-24 07:01:31 · 228 阅读 · 0 评论 -
Yarn的资源管理
Yarn的生产资源管理假设一台机器有48G物理内存 ,8core (按照1:2的一般配置)虚拟core(vcore)有 16个1)Linux系统本身要占内存+空留:20% ----》 48*0.2=9.6G剩余:80% = 38.4G2)DN进程(datanode):生产4G 更改datanode的配置(hadoop-env.sh) ...原创 2019-02-26 05:24:57 · 375 阅读 · 0 评论 -
yarn生产详解(资源管理+调度器)
YARN (主从) 资源+作业调度管理Yarn:一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享方面带来了巨大的好处。ResourceManager(RM):主要接收客户端任务请求,接收和监控NM的资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM) ...原创 2019-02-26 03:50:25 · 2160 阅读 · 0 评论 -
hadoop之离线处理电商项目架构和实现
处理流程1.涉及的基本技术组件Hadoop:HDFS MapReduce(清洗) YARN、需要部署Hadoop集群Hive:外部表、SQL 、解决数据倾斜 、sql优化、基于元数据管理、SQL 到MR过程Flume:将数据抽取到hdfs调度:crontab、shell、AzkabanHUE:可视化的notebook,CM自带 ,排查数据2.处理流程大数据开...原创 2019-04-08 04:31:28 · 1059 阅读 · 0 评论