gzx努力努力再努力-CSDN博客

原创 [YARN HA架构图 ]

1.YARN架构图：2.架构图详解： YARN HA hadoop001：zk rm(zkfc) nm hadoop002：zk rm(zkfc) nm hadoop003：zk nm ZKFC: 线程只作为RM进程的一个线程而非独立的进程存在 RMStateStore: 存储在zk的/rmstore目录下。 1.acti...

2019-03-29 19:07:25 539

原创 [HDFS HA架构图 ]

绿色字体红色字体粉色字体蓝色字体1.HA进程: 假设有3台机器： hadoop001:ZK NN ZKFC JN DN hadoop002:ZK NN ZKFC JN DN hadoop003:ZK JN DN jounalNode数量布置的多少: 一般根据HDFS请求量及数据量（一般部署2n+1个） ...

2019-03-29 10:33:50 605

原创 [关于 HDFS和Yarn HA 的了解]

绿色字体红色字体粉色字体蓝色字体1.企业中为什么要用集群：每一个角色都是一个进程： HDFS： NN：老大（接受读写流程请求）Master SNN：1h checkpoint secondary（每隔一小时都会备份NN中的editlog文件合并成新的fsimage） DN：存储数据块和数据块的校验和 YARN: RM 老大 master ...

2019-03-28 15:56:06 249

原创 [Hadoop离线项目处理流程]

1.企业级项目开发流程绿色字体红色字体粉色字体蓝色字体项目调研：技术？业务？产品经理、非常熟悉业务、项目经理需求分析：做什么做成什么样用户提出来的：显式隐式方案设计概设详设系统设计功能开发开发测试：单元测试 CICD 测试功能联调性能用户试用部署上线试运行 DIFF 稳定性...

2019-03-27 16:07:26 646

原创 [yarn资源调优怎么调，依据是什么]

1.yarn的资源调优怎么调，依据是什么①比如服务器256G物理内存，有DN,NM,RS，三个进程，yarn调优怎么做？这个题目从两个角度回答： 1.机器总内存，预留内存，各个进程内存的经验值 2.余下就是yarn资源的总内存，然后参数就是公众号里的参数。but，那些参数如何设置让资源利用最大化？...

2019-03-21 20:00:05 426

原创 [Hive 实战]

绿色字体红色字体粉色字体蓝色字体需求：统计各个城市所属区域下最受欢迎的Top 3产品　　需要用到窗口函数（下面再说）大数据处理：离线、实时（不管是离线还是实时，都要进行以下的步骤：） input ：HDFS、mysql、Hbase...... 处理之前肯定有数据输入进来（数据可以存放的位置）处理（分布式） MapReduce/H...

2019-03-19 10:09:22 2149

原创 [Hive 进阶]

绿色字体红色字体粉色字体蓝色字体**一.分区表:(静态分区和动态分区)**PARTITION 分区表：　　分区表：　　话务记录、日志记录 rdbms　　记录表是要分表的，因为生产上数据量是很大的，这样可以提高性能，可以当作是分表，将每一天的记录分成一张表：call_record_20190808call_record_20190809call_record_20190...

2019-03-17 15:26:54 236

原创 [Hive DML学习]

1.课前经验：绿色字体红色字体粉色字体蓝色字体　　在关系型数据库中，使用insert，update的情况是很多的，但是在大数据中，比如hive中，这种使用情况是很少的，基本上都用用load，把一个文件和一批文件load进hive表里，其实就是把这些文件load到hdfs中去。2.LOAD：　　LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE...

2019-03-15 21:29:30 189

原创 [Hive的DDL学习]

1.小知识点：①绿色字体红色字体粉色字体　　Ｈive数据一共分为两部分，一种是以数据形式存储在hdfs上，另一种是以元数据的形式存储在数据库上或者是关系型数据库上（元数据相关的配置在hive-size.xml中）蓝色字体②　　在启动Ｈive时，一定要先将hdfs和yarn先启动起来。③当启动 Hive时，会发现有一些错误，这些错误有的很短，我们应该去哪里查看错误的详细情况：　　...

2019-03-15 10:47:21 309

原创 [hive的部署]

1.hive（数据仓库:data warehouse）构建再Hadoop之上的数据仓库数据：HDFS 执行：MR（2.0过时）Spark Tez 运行：YARN2.有人说Hive不难，就是写SQL实现（这是错误的说法）架构层面，语法层面，底层执行层面，考虑优化3.install hive wget http://archive.cloudera.com/...

2019-03-13 19:06:51 250

原创 [YARN生产上调度器]

1.生产上 job去申请调度资源时：规则： FIFO 先进先出 Capacity 计算 Fair 公平生产图解： FiFO:表示先进先出调度器假设总共由40G的内存容器，job1在0点时进入运行作业，那么40G的内存全部运行job1，当job2在1点请求运行的时候，它需要等job1作业全部运行完成释放资源以后，再运行job2作业。 Capacity：表示...

2019-03-12 19:38:46 161

原创 [yarn生产上的优化]

1.yarn生产上的资源管理（至关重要）假设一台机器：48物理内存 8个core--&amp;gt;16个vcore Linux本身要占用内存+空留：20%=9.6个G（空留是根据实际机器的内存来决定的，如果内存大，可以考虑空留15%）剩余：80%=38.4G=38G DN进程：生产上4G 如何修改DN的内存配置信息：进入hadoop-env.sh脚本， HADOOP_N...

2019-03-12 19:15:39 577

转载 [MapReduce优化----Shuffle过程剖析及性能优化]转载

1.    Map端当Map 开始产生输出时，它并不是简单的把数据写到磁盘，因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂，数据首先是写到内存中的一个缓冲区，并做了一些预排序，以提升效率。每个Map 任务都有一个用来写入输出数据的循环内...

2019-03-12 16:53:06 201

转载【实验】Hadoop-2.7.2+zookeeper-3.4.6完全分布式环境搭建(HDFS、YARN HA)转载

Hadoop-2.7.2+Zookeeper-3.4.6完全分布式环境搭建一.版本组件名版本说明JREjava version "1.7.0_67"Java™ SE Runtime Environment (build 1.7.0_67-b01)Java HotSpot™ 64-...

2019-03-12 16:48:35 249

转载 [YARN的Memory和CPU调优配置详解]转载

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内存、CPU、磁盘...

2019-03-12 15:53:37 262

原创 [mapred yarn常用命令]

一般我们需要用命令的时候，却不知道命令是什么，那么这种情况下我们如何去查看自己需要的命令呢，接下来，我将带大家看一下如何查看命令帮助：[hadoop@hadoop002 bin]$ mapred --helpUsage: mapred [--config confdir] COMMAND where COMMAND is one of: pipes ...

2019-03-12 15:36:07 451

转载 [HDFS HA的一些补充] 转

HDFS的基本结构如上图所示，HDFS基本结构分NameNode、SecondaryNameNode、DataNode这几个。NameNode：是Master节点，有点类似Linux里的根目录。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；SecondaryNameNode：保存着NameNode的部分信息（不是全部信息NameNod...

2019-03-12 15:25:46 214

转载 [Hadoop参数]

前言：Hadoop三个参数文件，我不是很理解，我网上找了一篇学习下      配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法...

2019-03-12 15:18:52 224

原创 [MapReduce架构设计]

1.MapReduce 分布式计算框架企业开发不用jiav代码，很复杂，很累赘，mr job基于磁盘运算，速度太慢 Map：映射（元素的个数) hadoop001： x --》(x,1) key,value 键值对 y --》(y,1) z --》(z,1) x --》(x,1) hadoop002： x --》(x,1) z --》(z,1) ...

2019-03-11 18:48:06 436

原创 [HDFS的读写流程及副本放置机制]

1.写流程FSDataOutputStream 这个过程对于我们操作者而言是无感知的 1.Client调用FileSystem.creat(filePath)方法，去与NN进行【RPC】通信，nn check该路径文件是否存在以及有没有权限创建该文件。假如OK，就创建一个新的文件，但是不关联任何的block， nn根据上传的文件大小且块大小且副本数，计算多少块，以及块存放...

2019-03-09 19:50:57 574

原创 [Hadoop Web界面解读]

> http://hadoop001:50070 HDFS界面1.表头2.总览3.文件浏览器，可以在里面看到我们hdfs上的数据4.点击对应的文件可以看到文件的详细信息5.文件详细信息**> http://hadoop001:8088 yarn界面**...

2019-03-09 18:29:32 4657

原创 [HDFS架构设计]

1.块 block <property> <name>dfs.blocksize</name> <value>134217728</value> </property> <property> <name>dfs.re

2019-03-09 15:52:02 192

原创 [window系统的hosts配置，主机名代替ip访问web界面]

1.hosts文件无论是Liinux还是window系统中都有haosts文件 window的hosts文件存放在：C:\Windows\System32\drivers\etc 配置下在生产中，我们要用主机名来代替ip地址，解析主机名称时变解析到ip地址。访问web页面时效果图如下：...

2019-03-09 14:27:34 1468

原创 [Hadoop案例 wordcount的实际操作]

**提交 mr 作业到 yarn 上运行 wc**1.先编辑两个文件： [hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ vi a.log（先编辑一个文件保存） ruoze jepson www.ruozedata.com dashu adai fanren 1 a b c a b ...

2019-03-09 13:41:03 279

原创 [Linux多机器ssh互信配置]

**注意事项：**~/.ssh的权限为700 chmod -R 700 /.ssh~/.ssh/authorized_keys的权限是600 chmod -R 600 /.ssh/authorized_keys操作步骤：依次在5台机器上分别执行： ssh-keygen 命令一直回车即可然后分别查看：cat /.ssh/id_rsa.pubssh-rsa...

2019-03-09 13:06:25 461

原创 [努力努力再努力] 关于jps的深入了解以及生产中jps的一些坑

**1.jps命令的真相（这种情况是针对于：生产环境:）hadoop: hdfs组件 hdfs用户root用户或sudo权限的用户取获取**1.1 jps命令位置哪里的 [hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ which jps /usr/java/jdk1.8.0_45/bin/jps2.2 对应的进程的标识文件在哪 /tmp/...

2019-03-08 15:59:55 975

原创 [努力努力再努力] 生产中如何通过日志查看错误

在生产中我们运行命令时肯定会出现失败的情况，如果遇到这样的情况我们该怎么办, 那么这个时候我们就需要会查看日志，在日志中查找错误 ps：在hadoop的场景下： logs/目录下： hadoop-hadoop-datanode-hadoop002.log 对应的名字分别是： hadoop-用户-进程名称-机器名称一共有三种方法可以去查看：01 vi :/搜索 ERROR02 ...

2019-03-08 15:33:40 624

原创 [努力努力再努力] 2.hadoop伪分布式部署-hdfs进程启动的机器修改-yarn部署

1.hdfs三个进程要以hadoop002启动：这里的 hadoop001指的是你的主机名，配置文件在 etc/hadoop目录下：[hadoop@hadoop002 hadoop]$ lltotal 140-rw-r--r-- 1 hadoop hadoop 884 Feb 13 22:34 core-site.xml （存放hdfs，mapredurce，yarn的公共...

2019-03-08 15:20:45 248

原创 [努力努力再努力] 大数据中的面试题

第一道： id impl（展示） click（点击） 1 1 1 1 0 1 1 0 0 1 1 0 2 1 0 。。。。求：每个用户的展示和点击数（正常的），每个用户的不正常的展示和点击数答：（不正常的是：没展示，就点击了）第二道：sql中的left join 和 join准备数据：a表+---...

2019-03-07 10:25:50 962

原创 [努力努力再努力] hdfs伪分布式部署之hdfs部署

Hadoop：广义：以apache hadoop软件为主的生态圈（hive,zookeeper,spark,hbase）狭义：apache hadoop软件查询组件的官网： hadoop.apache hive.apache.org spark.apache.orghadoop软件有哪些组件： hdfs:存储，分布式文件系统 mapreduce：计算 y...

2019-03-07 10:11:05 252

原创 [努力努力再努力]普通用户如何临时获取root最大权限

首先在root用户下编辑 /etc/sudoers文件![在这里插入图片描述](https://img-blog.csdnimg.cn/20190306122935692.png)

2019-03-06 12:29:49 515

原创 [努力努力再努力] 关于再生产中tail -f和tail -F的坑

大家可能都知道，tail -f 和tail -F都是用来进行实时监控的那么这两者之间有什么区别呢？tail -F=tail-f +retry关于生产上这两者之间的区别，可以查看网址：http://blog.itpub.net/30089851/。...

2019-03-06 09:27:52 255

原创 [努力努力再努力] 关于作业调度 crontab -e和crontab -l

作业调度： crontab -e:(edit user's crontab)编辑 crontab -l:(list user's crontab)查看先编写一个脚本test.sh，内容为 date； [root@hadoop001 ~]# crontab -e * * * * * /root/test.sh &gt;&gt; /root/test.log 格式:* *...

2019-03-06 09:06:59 862

原创 [努力努力再努力] mysql中的查询语法和题

创建三个表并添加数据：--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10, 'ACCOUNTING', 'NEW YORK');...

2019-03-05 19:00:34 271

原创 [努力努力再努力] mysql中的一些基础知识

如何创建一个新的DB和用户: create database DB名字(创建一个新的DB) grant all privileges on DB名字.* to 用户名字@'%' identified by '密码' (创建一个新用户并赋予它对这个DB的全部权限， %:ip地址，表示该用户允许任意ip地址来访问当前数据库 %也可以换成任意ip，比如：127.0.0.1：表示当...

2019-03-05 16:21:21 209

原创 [努力努力再努力] MySQL二进制部署

**MySQL环境搭建******1.Download and Check MD5****[root@sht-sgmhadoopnn-01 ~]# cd /usr/localmysql-5.6.23-linux-glibc2.5-x86_64.tar.gz选择rz上传[root@sht-sgmhadoopnn-01 local]# cat mysql-5.6.23-linux...

2019-03-03 13:55:41 242

原创 [努力努力再努力]jdk1.8安装

**JDK的安装&amp;amp;&amp;amp;全局环境变量** jdk 文件必须放到: /usr/ 目录下解压jdk的 tar包: tar -zxvf jdk-8u45-linux-x64.gz 注意: 解压之后，修改jdk文件夹的权限 chown -R root:root jdk1.8.0_45 文件夹和文件夹里面的文件夹和文件 ch...

2019-03-03 13:30:46 160

原创【努力努力再努力】Linux命令进阶

**Linux基本命令：**查看用户命令： ll /usr/sbin/user* 列如:(usermod,userdel,useradd)查看用户组命令： ll /usr/sbin/group* 列如:(groupmod,groupdel,groupadd)添加和删除用户： useradd ruoze (创建一个ruoze用户，并且自动创建一个ruoze用户组)...

2019-03-01 07:51:22 573

原创 # [努力努力再努力] (Linux一些常用命令)

2019-02-27 14:54:41 223

空空如也

空空如也