2019年08月_顾国玉

11月 10月 09月 08月 07月 06月 01月

原创 mac中IntelliJ IDEA运行速度慢

只要修改hosts文件即可sudo vi /etc/hosts然后在你的loclhosts后面追加：你的电脑名.local，如下图

2019-08-31 10:13:44 1955 1

原创 shell脚本检测hdfs ha发生failover时，发送邮件预警

当hdfs ha集群启动之后，我们可以通过获取配置文件key的获取到一些value信息，然后可以得到hdfs的机器名，serviceid，状态是active还是standby；准备两个文件HDFS_HA_LAST.log和HDFS_HA.log，保证每次获取信息第一行放activeHDFS_HA_LAST.log文件内容如下：hadoop001 nn1 activehadoop002 nn...

2019-08-26 10:16:52 407

原创 ssh zookeeper集群无法启动的排查

1 问题重现有如下shell脚本start-zk.sh，内容如下#!/bin/bash#zkssh hadoop001 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop002 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop003 "${ZOOKEEPER_HOME}/bin/...

2019-08-24 17:57:05 900 2

原创 centos7用shell通过mail465端口发送邮件

1 先去QQ邮箱，开启SMTP和获取授权码先生成授权码，生成之后，授权码记录下，后面配置的时候要用2 停止sendmail服务先查看sendmail服务是否存在systemctl status sendmail如果sendmail服务不存在，那就直接进入第3节，如果服务存在并启动，那么就停止掉，执行下面代码：systemctl stop sendmailchkconfig sen...

2019-08-24 14:51:00 2288

原创 shell常用命令

文章目录1.入门2.变量定义与引用3.传递参数4.数组5.流程控制if5.1 if else 语法5.2 if else-if else 语法6.流程控制for while6.1 for循环6.2 while循环7.分割8.awk9.sed1.入门shell脚本一般都是以.sh结尾，第一行标准的写法是：#!/bin/bash例如有个hello.sh文件，内容如下：#!/bin/bashe...

2019-08-23 21:33:04 357

原创 Hadoop HA集群搭建(3台阿里云)

文章目录一阿里云主机（3台）1.1 选择云服务器ECS1.2 创建实例1.3 基本配置1.4 网络和安全组1.5 系统配置1.6 确认实例1.7 实例列表二环境准备2.1 用户和目录准备2.2 软件2.3 ip与hostname绑定2.4 设置3台机器ssh免密通信2.5 jdk安装2.6 安装ZooKeeper一阿里云主机（3台）注册和充值这里就不演示了，我们需要购买3台机器，然后选择...

2019-08-20 13:08:47 1077 1

原创 Hadoop HA架构图

文章目录一 HDFS HA架构图1.1相关的缩写描述：1.2 架构说明1.3 NN active1.4 NN standby1.5 JN1.6 zkfc二 Yarn Ha架构图2.1 ResourceManager(RM)2.2 NodeManager(NM)2.3 ApplictionMaster(AM)2.4 RMstatestore2.5 zkfc一 HDFS HA架构图架构图如下：...

2019-08-19 16:39:24 1162

原创 hadoop2.6.0-cdh5.15.1编译源码支持压缩

文章目录一为什么要编译二环境条件三安装依赖四安装软件4.1 jdk1.74.2 maven4.3 protobuf五编译hadoop六伪分布式部署一为什么要编译直接从官网上下载的hadoop-2.6.0-cdh5.15.1.tar.gz部署后，不支持压缩，生产上是不可接受的，我们可以用下面命令查看：hadoop checknative所以我们要进行编译，让他支持压缩二 ...

2019-08-17 16:00:49 684

原创 Hive、MySQL、Sqoop求TOP N

文章目录一数据说明二分析三 Sqoop3.1 什么是Sqoop3.2 Sqoop部署3.3 Sqoop简单应用3.4 Sqoop import HDFS3.5 Sqoop import Hive一数据说明目前我们有三张表1.位于MySQL的city_info表, product_info表2.位于Hive的user_click表城市信息表city_info ，字段说明如下：ci...

2019-08-13 22:56:44 328

原创 Hive分区表

在web项目中，谁在什么时候，做了什么事，都需要用日志存储用mysql存储日志数据时，logs越来越大，性能会越来越差，通常会进行分表存储，例如logs_20190101, logs_20190102在Hive中通常用分区表partition进行数据的拆分，但是在hive中是一张表，只是不同的分区，在不同的目录下面一、一级分区例如有如下数据，我们需要把此数据导入到hive的一个分区表中...

2019-08-11 15:43:07 653 1

原创 Hive函数复杂函数

1 解析url假如有下面的url'http://www.facebook.com/user/login.html?username=root&password=123456'我们要获取到里面的host,path,query,username，可以使用hive的函数parse_url_tupleselect parse_url_tuple('http://www.facebook...

2019-08-10 22:05:47 1607

原创 json导入Hive,并整理成大宽表

文章目录1 创建表2 导入Hive3 json_tuple查询数据4 整理成大宽表首先我们有如下图的json数据，我们需要把这份数据先导入到Hive，然后在整理成结构化的数据，这样我们就可以根据需求查询对应的数据了1 创建表首先先要创建一个表create table rating(json string);2 导入Hive然后把数据导入到hive中load data local ...

2019-08-10 11:58:04 2139

原创 Hive DDL DML 内置函数 wc统计

文章目录一创建表1.1 create...like...1.2 Create Table As Select二修改表三删除表3.1 Drop Table3.2 Truncate Table四内部表和外部表五 Load导入表数据六聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...

2019-08-09 15:51:06 427

原创 Hive部署

1 Hive概括在部署之前，我们先要了解什么是Hive，我们打开官网：http://hive.apache.org/1.Hive数据仓库软件可以通过SQL可以很方便的对存储在分布式仓库的大数据进行读、写、管理。解决海量结构化数据的统计问题，可以通过命令行以及JDBC的方式去访问Hive2.Hive是构建在Hadoop之上的数据仓库，适合做离线处理3.Hive是客户端，不是一个集群，主要是...

2019-08-06 15:11:45 375

原创 mysql tar部署文档整理

文章描述了mysql的部署，与相关其他命令的概括

2019-08-05 17:47:30 316

在理想状态下，我们对yarn的资源请求，应该是立即得到相应，但是实际情况往往资源是有限的，如果集群很繁忙的话，一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择1 FIFO SchedulerFIFO Scheduler 把应用按照提交的顺序拍成一个队列，上图是一个先进先出的队列，但是他并不适合共享集群，上图中job1在0点提交任务，资源使用率为100%，...

2019-08-04 11:42:09 1978

原创 wordcount案例的shuffle过程分析

如上图，假设，有个文件为test.log，大小为260mb，内容是一些单词，我们要对这些单词进行统计，统计每个每个单词出现的总次数，称之为：wordcount，下面我们分析分析mapreduce流程是怎么走的1 Splittingsplitting阶段是对我们的文件进行拆分，正常的block块默认是128m，我们文件大小为260m，那么260/128=2余4，那么一般会被拆成2个128m,...

2019-08-03 21:18:34 561

原创 yarn资源调优的几个参数

准备知识每个job提交到yarn执行的时候，都会分配container容器去运行，而这个容器需要资源才能运行，那这个资源就是cpu和内存，也就是每个任务container都需要CPU和内存，那么下面我们从CPU和内存去分析CPU资源调度目前的CPU被划分为虚拟CPU(CPU virtual Core)，这里的虚拟CPU是yarn自己引入的概念，因为每个服务器的CPU计算能力不一样，有的机器可...

2019-08-02 23:47:39 16696 5

原创 mr on yarn架构设计

架构图RM: ResourceManagerNM: NodeManager1.用户向yarn提交job，其中包含Application master程序，以及启动Application master的脚本等2.RM为该job分配第一个Container，与对应的NM通信，要求他在这个Container启动作业的Application master3.Application master...

2019-08-02 11:31:11 317

原创 Hadoop常用命令

文章目录1 hadoop命令2 hdfs命令3 hdfs dfs命令（⭐️⭐️⭐️）1 hadoop命令在终端输入hadoop，会出现此命令可用的一些参数[hadoop@izuf621gcimj21arvwjqo6z ~]$ hadoop#Usage：使用的格式Usage: hadoop [--config confdir] COMMAND where COMMAND is...

2019-08-01 17:28:05 234

原创 HDFS 读写流程

1 读流程1.Client通过FileSystem.open(filepath)方法2.与NN节点进行【RPC】协议通信，检验是否有权限，检验filepath是否存在3.返回【FSDataInputStream】对象，含有读取文件的部分或者全部block列表（包含各个block块分布在DN地址的列表）4.Client调用【FSDataInputStream】的read方法5.选择最近的一...

2019-08-01 10:56:16 145

Spring SpringMVC MyBatis整合包

附件已将spring,springMVC,mybatis整合完成，只需要开发业务即可

2018-07-07

JavaWeb 增删改查

通过浏览器对数据库中的表格进行增删改查，以及对数据库进行批量删除

2018-06-07

JavaWeb ajax异步自动填充信息

ajax异步自动填充信息，类似于百度查询的简单demo，希望能帮到大家

2018-06-05

Java jdbc三层及事务（转账案例）

通过转账案例讲解了三层和事务，以及容易出现问题的关键点

2018-05-10

自定义dbutils下的MyQueryRunner

1.如果我们只会使用一些工具，那是知其然，但是如果我们也能写出一个类似的工具，那就是知其所以然 2.站在框架设计者的角度看本文，主要理解QueryRunner底层的思想，设计原理，同时还可以辅助理解动态代理

2018-05-08

java动态代理实现自定义连接池

1.主要理解动态代理的设计思想 2.理解连接池的设计思想以及优点

2018-05-06

JDBC 工具类JdbcUtils封装与测试应用(针对mysql)

通过JdbcUtils工具类将数据库驱动，连接，资源关闭全部封装起来，需要的时候直接调用

2018-05-03

提取Email地址

目的：C#通过正则表达式提取html中的Email，欢迎大家下载，有问题交流沟通！

2017-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

阿顾的博客