自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 [YARN HA架构图 ]

1.YARN架构图:2.架构图详解: YARN HA hadoop001:zk rm(zkfc) nm hadoop002:zk rm(zkfc) nm hadoop003:zk nm ZKFC: 线程 只作为RM进程的一个线程而非独立的进程存在 RMStateStore: 存储在zk的/rmstore目录下。 1.acti...

2019-03-29 19:07:25 539

原创 [HDFS HA架构图 ]

绿色字体红色字体粉色字体蓝色字体1.HA进程: 假设有3台机器: hadoop001:ZK NN ZKFC JN DN hadoop002:ZK NN ZKFC JN DN hadoop003:ZK JN DN jounalNode数量布置的多少: 一般根据HDFS请求量 及数据量(一般部署2n+1个) ...

2019-03-29 10:33:50 605

原创 [关于 HDFS和Yarn HA 的了解]

绿色字体红色字体粉色字体蓝色字体1.企业中为什么要用集群: 每一个角色都是一个进程: HDFS: NN:老大(接受读写流程请求)Master SNN:1h checkpoint secondary(每隔一小时都会备份NN中的editlog文件合并成新 的fsimage) DN:存储数据块和数据块的校验和 YARN: RM 老大 master ...

2019-03-28 15:56:06 249

原创 [Hadoop离线项目处理流程]

1.企业级项目开发流程绿色字体红色字体粉色字体蓝色字体 项目调研:技术?业务? 产品经理、非常熟悉业务、项目经理 需求分析:做什么 做成什么样 用户提出来的:显式 隐式 方案设计 概设 详设 系统设计 功能开发 开发 测试:单元测试 CICD 测试 功能 联调 性能 用户 试用 部署上线 试运行 DIFF 稳定性...

2019-03-27 16:07:26 646

原创 [yarn资源调优怎么调,依据是什么]

1.yarn的资源调优怎么调,依据是什么①比如服务器256G物理内存,有DN,NM,RS,三个进程,yarn调优怎么做? 这个题目从两个角度回答: 1.机器总内存,预留内存,各个进程内存的经验值 2.余下就是yarn资源的总内存,然后参数就是公众号 里的参数。but,那些参数如何设置让资源利用最大化?...

2019-03-21 20:00:05 426

原创 [Hive 实战]

绿色字体红色字体粉色字体蓝色字体需求:统计各个城市所属区域下最受欢迎的Top 3产品  需要用到窗口函数 (下面再说) 大数据处理:离线、实时(不管是离线还是实时,都要进行以下的步骤:) input :HDFS、mysql、Hbase...... 处理之前肯定有数据输入进来(数据可以存放的位置) 处理(分布式) MapReduce/H...

2019-03-19 10:09:22 2149

原创 [Hive 进阶]

绿色字体红色字体粉色字体蓝色字体**一.分区表:(静态分区和动态分区)**PARTITION 分区表:  分区表:  话务记录、日志记录 rdbms  记录表是要分表的,因为生产上数据量是很大的,这样可以提高性能,可以当作是分表,将每一天的记录分成一张表:call_record_20190808call_record_20190809call_record_20190...

2019-03-17 15:26:54 236

原创 [Hive DML学习]

1.课前经验:绿色字体红色字体粉色字体蓝色字体  在关系型数据库中,使用insert,update的情况是很多的,但是在大数据中,比如hive中,这种使用情况是很少的,基本上都用用load,把一个文件和一批文件load进hive表里,其实就是把这些文件load到hdfs中去。2.LOAD:  LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE...

2019-03-15 21:29:30 189

原创 [Hive的DDL学习]

1.小知识点:①绿色字体红色字体粉色字体  Hive数据一共分为两部分,一种是以数据形式存储在hdfs上,另一种是以元数据的形式存储在数据库上或者是关系型数据库上(元数据相关的配置在hive-size.xml中)蓝色字体②  在启动Hive时,一定要先将hdfs和yarn先启动起来。③当启动 Hive时,会发现有一些错误,这些错误有的很短,我们应该去哪里查看错误的详细情况:  ...

2019-03-15 10:47:21 309

原创 [hive的部署]

1.hive(数据仓库:data warehouse) 构建再Hadoop之上的数据仓库 数据:HDFS 执行:MR(2.0过时)Spark Tez 运行:YARN2.有人说Hive不难,就是写SQL实现(这是错误的说法) 架构层面,语法层面,底层执行层面,考虑优化3.install hive wget http://archive.cloudera.com/...

2019-03-13 19:06:51 250

原创 [YARN生产上调度器]

1.生产上 job去申请调度资源时:规则: FIFO 先进先出 Capacity 计算 Fair 公平 生产图解: FiFO:表示 先进先出调度器 假设总共由40G的内存容器,job1在0点时进入运行作业,那么40G的内存全部运行job1,当job2在1点请求运行的时候,它需要等job1作业全部运行完成释放资源以后,再运行job2作业。 Capacity:表示...

2019-03-12 19:38:46 161

原创 [yarn生产上的优化]

1.yarn生产上的资源管理(至关重要) 假设一台机器:48物理内存 8个core-->16个vcore Linux本身要占用内存+空留:20%=9.6个G(空留是根据实际机器的内存来决定的,如果内存大,可以考虑空留15%) 剩余:80%=38.4G=38G DN进程:生产上4G 如何修改DN的内存配置信息:进入hadoop-env.sh脚本, HADOOP_N...

2019-03-12 19:15:39 577

转载 [MapReduce优化----Shuffle过程剖析及性能优化]转载

1.    Map端当Map 开始产生输出时,它并不是简单的把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先是写到内存中的一个缓冲区,并做了一些预排序,以提升效率。每个Map 任务都有一个用来写入输出数据的循环内...

2019-03-12 16:53:06 201

转载 【实验】Hadoop-2.7.2+zookeeper-3.4.6完全分布式环境搭建(HDFS、YARN HA)转载

Hadoop-2.7.2+Zookeeper-3.4.6完全分布式环境搭建一.版本组件名版本说明JREjava version "1.7.0_67"Java™ SE Runtime Environment (build 1.7.0_67-b01)Java HotSpot™ 64-...

2019-03-12 16:48:35 249

转载 [YARN的Memory和CPU调优配置详解]转载

Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘...

2019-03-12 15:53:37 262

原创 [mapred yarn常用命令]

一般我们需要用命令的时候,却不知道命令是什么,那么这种情况下我们如何去查看自己需要的命令呢,接下来,我将带大家看一下如何查看命令帮助:[hadoop@hadoop002 bin]$ mapred --helpUsage: mapred [--config confdir] COMMAND where COMMAND is one of: pipes ...

2019-03-12 15:36:07 451

转载 [HDFS HA的一些补充] 转

HDFS的基本结构如上图所示,HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode:是Master节点,有点类似Linux里的根目录。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:保存着NameNode的部分信息(不是全部信息NameNod...

2019-03-12 15:25:46 214

转载 [Hadoop参数]

前言:Hadoop三个参数文件,我不是很理解,我网上找了一篇学习下      配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法...

2019-03-12 15:18:52 224

原创 [MapReduce架构设计]

1.MapReduce 分布式计算框架 企业开发不用jiav代码,很复杂,很累赘,mr job基于磁盘运算,速度太慢 Map:映射(元素的个数) hadoop001: x --》(x,1) key,value 键值对 y --》(y,1) z --》(z,1) x --》(x,1) hadoop002: x --》(x,1) z --》(z,1) ...

2019-03-11 18:48:06 436

原创 [HDFS的读写流程及副本放置机制]

1.写流程FSDataOutputStream 这个过程对于我们操作者而言是无感知的 1.Client调用FileSystem.creat(filePath)方法,去与NN进行【RPC】通信,nn check该路径 文件是否存在以及有没有权限创建该文件。假如OK,就创建一个新的文件,但是不关联任何的block, nn根据上传的文件大小且块大小且副本数,计算多少块,以及块存放...

2019-03-09 19:50:57 574

原创 [Hadoop Web界面解读]

> http://hadoop001:50070 HDFS界面1.表头2.总览3.文件浏览器,可以在里面看到我们hdfs上的数据4.点击对应的文件可以看到文件的详细信息5.文件详细信息**> http://hadoop001:8088 yarn界面**...

2019-03-09 18:29:32 4657

原创 [HDFS架构设计]

1.块 block <property> <name>dfs.blocksize</name> <value>134217728</value> </property> <property> <name>dfs.re

2019-03-09 15:52:02 192

原创 [window系统的hosts配置,主机名代替ip访问web界面]

1.hosts文件 无论是Liinux还是window系统中都有haosts文件 window的hosts文件存放在:C:\Windows\System32\drivers\etc 配置下 在生产中,我们要用主机名来代替ip地址,解析主机名称时变解析到ip地址。 访问web页面时效果图如下:...

2019-03-09 14:27:34 1468

原创 [Hadoop案例 wordcount的实际操作]

**提交 mr 作业到 yarn 上运行 wc**1.先编辑两个文件: [hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ vi a.log(先编辑一个文件保存) ruoze jepson www.ruozedata.com dashu adai fanren 1 a b c a b ...

2019-03-09 13:41:03 279

原创 [Linux多机器ssh互信配置]

**注意事项:**~/.ssh的权限为700 chmod -R 700 /.ssh~/.ssh/authorized_keys的权限是600 chmod -R 600 /.ssh/authorized_keys操作步骤: 依次在5台机器上分别执行: ssh-keygen 命令 一直回车即可 然后分别查看:cat /.ssh/id_rsa.pubssh-rsa...

2019-03-09 13:06:25 461

原创 [努力努力再努力] 关于jps的深入了解以及生产中jps的一些坑

**1.jps命令的真相(这种情况是针对于:生产环境:)hadoop: hdfs组件 hdfs用户root用户或sudo权限的用户取获取**1.1 jps命令位置哪里的 [hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ which jps /usr/java/jdk1.8.0_45/bin/jps2.2 对应的进程的标识文件在哪 /tmp/...

2019-03-08 15:59:55 975

原创 [努力努力再努力] 生产中如何通过日志查看错误

在生产中我们运行命令时肯定会出现失败的情况,如果遇到这样的情况我们该怎么办, 那么这个时候我们就需要会查看日志,在日志中查找错误 ps:在hadoop的场景下: logs/目录下: hadoop-hadoop-datanode-hadoop002.log 对应的名字分别是: hadoop-用户-进程名称-机器名称 一共有三种方法可以去查看:01 vi :/搜索 ERROR02 ...

2019-03-08 15:33:40 624

原创 [努力努力再努力] 2.hadoop伪分布式部署-hdfs进程启动的机器修改-yarn部署

1.hdfs三个进程要以hadoop002启动: 这里的 hadoop001指的是你的主机名, 配置文件在 etc/hadoop目录下:[hadoop@hadoop002 hadoop]$ lltotal 140-rw-r--r-- 1 hadoop hadoop 884 Feb 13 22:34 core-site.xml (存放hdfs,mapredurce,yarn的公共...

2019-03-08 15:20:45 248

原创 [努力努力再努力] 大数据中的面试题

第一道: id impl(展示) click(点击) 1 1 1 1 0 1 1 0 0 1 1 0 2 1 0 。。。。 求:每个用户的展示和点击数(正常的) , 每个用户的不正常的展示和点击数 答:(不正常的是:没展示,就点击了)第二道:sql中的left join 和 join准备数据:a表+---...

2019-03-07 10:25:50 962

原创 [努力努力再努力] hdfs伪分布式部署之hdfs部署

Hadoop: 广义:以apache hadoop软件为主的生态圈(hive,zookeeper,spark,hbase) 狭义:apache hadoop软件查询组件的官网: hadoop.apache hive.apache.org spark.apache.orghadoop软件有哪些组件: hdfs:存储,分布式文件系统 mapreduce:计算 y...

2019-03-07 10:11:05 252

原创 [努力努力再努力]普通用户如何临时获取root最大权限

首先在root用户下 编辑 /etc/sudoers文件![在这里插入图片描述](https://img-blog.csdnimg.cn/20190306122935692.png)

2019-03-06 12:29:49 515

原创 [努力努力再努力] 关于再生产中tail -f和tail -F的坑

大家可能都知道,tail -f 和tail -F都是用来进行实时监控的那么这两者之间有什么区别呢?tail -F=tail-f +retry关于生产上这两者之间的区别,可以查看网址:http://blog.itpub.net/30089851/。...

2019-03-06 09:27:52 255

原创 [努力努力再努力] 关于作业调度 crontab -e和crontab -l

作业调度: crontab -e:(edit user's crontab)编辑 crontab -l:(list user's crontab)查看 先编写一个脚本test.sh,内容为 date; [root@hadoop001 ~]# crontab -e * * * * * /root/test.sh >> /root/test.log 格式:* *...

2019-03-06 09:06:59 862

原创 [努力努力再努力] mysql中的查询语法和题

创建三个表并添加数据:--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10, 'ACCOUNTING', 'NEW YORK');...

2019-03-05 19:00:34 271

原创 [努力努力再努力] mysql中的一些基础知识

如何创建一个新的DB和用户: create database DB名字(创建一个新的DB) grant all privileges on DB名字.* to 用户名字@'%' identified by '密码' (创建一个新用户并赋予它对这个DB的全部权限, %:ip地址,表示该用户允许任意ip地址来访问当前数据库 %也可以换成任意ip,比如:127.0.0.1:表示当...

2019-03-05 16:21:21 209

原创 [努力努力再努力] MySQL二进制部署

**MySQL环境搭建******1.Download and Check MD5****[root@sht-sgmhadoopnn-01 ~]# cd /usr/localmysql-5.6.23-linux-glibc2.5-x86_64.tar.gz选择rz上传[root@sht-sgmhadoopnn-01 local]# cat mysql-5.6.23-linux...

2019-03-03 13:55:41 242

原创 [努力努力再努力]jdk1.8安装

**JDK的安装&&全局环境变量** jdk 文件必须放到: /usr/ 目录下 解压jdk的 tar包: tar -zxvf jdk-8u45-linux-x64.gz 注意: 解压之后,修改jdk文件夹的权限 chown -R root:root jdk1.8.0_45 文件夹和文件夹里面的文件夹和文件 ch...

2019-03-03 13:30:46 160

原创 【努力努力再努力】Linux命令进阶

**Linux基本命令:**查看用户命令: ll /usr/sbin/user* 列如:(usermod,userdel,useradd)查看用户组命令: ll /usr/sbin/group* 列如:(groupmod,groupdel,groupadd)添加和删除用户: useradd ruoze (创建一个ruoze用户,并且自动创建一个ruoze用户组)...

2019-03-01 07:51:22 573

原创 # [努力努力再努力] (Linux一些常用命令)

Linux基本命令:查看IP:1 | ifconfig2 | ipconfig(windows) 关闭防护墙:1 | service ipconfig stop2 | chkconfig off查看当前光标所在路径: pwdLinux系统中根目录是指: /有关于cd相关命令:1 | cd 或者 cd~ (切换到根目录)2 | cd - ...

2019-02-27 14:54:41 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除