- 博客(21)
- 资源 (8)
- 收藏
- 关注
原创 mac中IntelliJ IDEA运行速度慢
只要修改hosts文件即可sudo vi /etc/hosts然后在你的loclhosts后面追加:你的电脑名.local,如下图
2019-08-31 10:13:44 1955 1
原创 shell脚本检测hdfs ha发生failover时,发送邮件预警
当hdfs ha集群启动之后,我们可以通过获取配置文件key的获取到一些value信息,然后可以得到hdfs的机器名,serviceid,状态是active还是standby;准备两个文件HDFS_HA_LAST.log和HDFS_HA.log,保证每次获取信息第一行放activeHDFS_HA_LAST.log文件内容如下:hadoop001 nn1 activehadoop002 nn...
2019-08-26 10:16:52 407
原创 ssh zookeeper集群无法启动的排查
1 问题重现有如下shell脚本start-zk.sh,内容如下#!/bin/bash#zkssh hadoop001 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop002 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop003 "${ZOOKEEPER_HOME}/bin/...
2019-08-24 17:57:05 900 2
原创 centos7用shell通过mail465端口发送邮件
1 先去QQ邮箱,开启SMTP和获取授权码先生成授权码,生成之后,授权码记录下,后面配置的时候要用2 停止sendmail服务先查看sendmail服务是否存在systemctl status sendmail如果sendmail服务不存在,那就直接进入第3节,如果服务存在并启动,那么就停止掉,执行下面代码:systemctl stop sendmailchkconfig sen...
2019-08-24 14:51:00 2288
原创 shell常用命令
文章目录1.入门2.变量定义与引用3.传递参数4.数组5.流程控制if5.1 if else 语法5.2 if else-if else 语法6.流程控制for while6.1 for循环6.2 while循环7.分割8.awk9.sed1.入门shell脚本一般都是以.sh结尾,第一行标准的写法是:#!/bin/bash例如有个hello.sh文件,内容如下:#!/bin/bashe...
2019-08-23 21:33:04 357
原创 Hadoop HA集群搭建(3台阿里云)
文章目录一 阿里云主机(3台)1.1 选择云服务器ECS1.2 创建实例1.3 基本配置1.4 网络和安全组1.5 系统配置1.6 确认实例1.7 实例列表二 环境准备2.1 用户和目录准备2.2 软件2.3 ip与hostname绑定2.4 设置3台机器ssh免密通信2.5 jdk安装2.6 安装ZooKeeper一 阿里云主机(3台)注册和充值这里就不演示了,我们需要购买3台机器,然后选择...
2019-08-20 13:08:47 1077 1
原创 Hadoop HA架构图
文章目录一 HDFS HA架构图1.1相关的缩写描述:1.2 架构说明1.3 NN active1.4 NN standby1.5 JN1.6 zkfc二 Yarn Ha架构图2.1 ResourceManager(RM)2.2 NodeManager(NM)2.3 ApplictionMaster(AM)2.4 RMstatestore2.5 zkfc一 HDFS HA架构图架构图如下:...
2019-08-19 16:39:24 1162
原创 hadoop2.6.0-cdh5.15.1编译源码支持压缩
文章目录一 为什么要编译二 环境条件三 安装依赖四 安装软件4.1 jdk1.74.2 maven4.3 protobuf五 编译hadoop六 伪分布式部署一 为什么要编译直接从官网上下载的hadoop-2.6.0-cdh5.15.1.tar.gz部署后,不支持压缩,生产上是不可接受的,我们可以用下面命令查看:hadoop checknative所以我们要进行编译,让他支持压缩二 ...
2019-08-17 16:00:49 684
原创 Hive、MySQL、Sqoop求TOP N
文章目录一 数据说明二 分析三 Sqoop3.1 什么是Sqoop3.2 Sqoop部署3.3 Sqoop简单应用3.4 Sqoop import HDFS3.5 Sqoop import Hive一 数据说明目前我们有三张表1.位于MySQL的city_info表, product_info表2.位于Hive的user_click表城市信息表city_info ,字段说明如下:ci...
2019-08-13 22:56:44 328
原创 Hive分区表
在web项目中,谁在什么时候,做了什么事,都需要用日志存储用mysql存储日志数据时,logs越来越大,性能会越来越差,通常会进行分表存储,例如logs_20190101, logs_20190102在Hive中通常用分区表partition进行数据的拆分,但是在hive中是一张表,只是不同的分区,在不同的目录下面一、一级分区例如有如下数据,我们需要把此数据导入到hive的一个分区表中...
2019-08-11 15:43:07 653 1
原创 Hive函数 复杂函数
1 解析url假如有下面的url'http://www.facebook.com/user/login.html?username=root&password=123456'我们要获取到里面的host,path,query,username,可以使用hive的函数parse_url_tupleselect parse_url_tuple('http://www.facebook...
2019-08-10 22:05:47 1607
原创 json导入Hive,并整理成大宽表
文章目录1 创建表2 导入Hive3 json_tuple查询数据4 整理成大宽表首先我们有如下图的json数据,我们需要把这份数据先导入到Hive,然后在整理成结构化的数据,这样我们就可以根据需求查询对应的数据了1 创建表首先先要创建一个表create table rating(json string);2 导入Hive然后把数据导入到hive中load data local ...
2019-08-10 11:58:04 2139
原创 Hive DDL DML 内置函数 wc统计
文章目录一 创建表1.1 create...like...1.2 Create Table As Select二 修改表三 删除表3.1 Drop Table3.2 Truncate Table四 内部表和外部表五 Load导入表数据六 聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...
2019-08-09 15:51:06 427
原创 Hive部署
1 Hive概括在部署之前,我们先要了解什么是Hive,我们打开官网:http://hive.apache.org/1.Hive数据仓库软件可以通过SQL可以很方便的对存储在分布式仓库的大数据进行读、写、管理。解决海量结构化数据的统计问题,可以通过命令行以及JDBC的方式去访问Hive2.Hive是构建在Hadoop之上的数据仓库,适合做离线处理3.Hive是客户端,不是一个集群,主要是...
2019-08-06 15:11:45 375
原创 yarn三种调度器
在理想状态下,我们对yarn的资源请求,应该是立即得到相应,但是实际情况往往资源是有限的,如果集群很繁忙的话,一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择1 FIFO SchedulerFIFO Scheduler 把应用按照提交的顺序拍成一个队列,上图是一个先进先出的队列,但是他并不适合共享集群,上图中job1在0点提交任务,资源使用率为100%,...
2019-08-04 11:42:09 1978
原创 wordcount案例的shuffle过程分析
如上图,假设,有个文件为test.log,大小为260mb,内容是一些单词,我们要对这些单词进行统计,统计每个每个单词出现的总次数,称之为:wordcount,下面我们分析分析mapreduce流程是怎么走的1 Splittingsplitting阶段是对我们的文件进行拆分,正常的block块默认是128m,我们文件大小为260m,那么260/128=2余4,那么一般会被拆成2个128m,...
2019-08-03 21:18:34 561
原创 yarn资源调优的几个参数
准备知识每个job提交到yarn执行的时候,都会分配container容器去运行,而这个容器需要资源才能运行,那这个资源就是cpu和内存,也就是每个任务container都需要CPU和内存,那么下面我们从CPU和内存去分析CPU资源调度目前的CPU被划分为虚拟CPU(CPU virtual Core),这里的虚拟CPU是yarn自己引入的概念,因为每个服务器的CPU计算能力不一样,有的机器可...
2019-08-02 23:47:39 16696 5
原创 mr on yarn架构设计
架构图RM: ResourceManagerNM: NodeManager1.用户向yarn提交job,其中包含Application master程序,以及启动Application master的脚本等2.RM为该job分配第一个Container,与对应的NM通信,要求他在这个Container启动作业的Application master3.Application master...
2019-08-02 11:31:11 317
原创 Hadoop常用命令
文章目录1 hadoop命令2 hdfs命令3 hdfs dfs命令(⭐️⭐️⭐️)1 hadoop命令在终端输入hadoop,会出现此命令可用的一些参数[hadoop@izuf621gcimj21arvwjqo6z ~]$ hadoop#Usage:使用的格式Usage: hadoop [--config confdir] COMMAND where COMMAND is...
2019-08-01 17:28:05 234
原创 HDFS 读写流程
1 读流程1.Client通过FileSystem.open(filepath)方法2.与NN节点进行【RPC】协议通信,检验是否有权限,检验filepath是否存在3.返回【FSDataInputStream】对象,含有读取文件的部分或者全部block列表(包含各个block块分布在DN地址的列表)4.Client调用【FSDataInputStream】的read方法5.选择最近的一...
2019-08-01 10:56:16 145
自定义dbutils下的MyQueryRunner
2018-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人