顾工讲码-CSDN博客

原创 docker push 异常 denied: requested access to the resource is denied

问题复现push的时候，出现如下异常：解决方法1.先登陆docker login2.再进行pushdocker push username/reponame:tagname最后，我们登陆docker官网仓库看下，是否push上传成功从上图可以看出，已经push成功...

2020-01-08 15:57:38 4220

原创 dbeaver连接phoenix异常: org.apache.hadoop.hbase.util.ClassSize和Unexpected version format:11.0.3

一异常问题通过dbeaver连接phoenix的时候，会出现如下的两种异常：Could not initialize class org.apache.hadoop.hbase.util.ClassSizeUnexpected version format:11.0.3这个问题是jdk版本的问题，dbeaver安装的时候会自带jre环境，我们看下自带的jre版本从上面图可以看出，...

2019-11-12 20:13:49 6554 2

原创 spark on yarn cluster模式，异常：no suitable driver

网上很多都说要配置–driver-class-path的，又说要把mysql驱动包放到spark默认的classpath下面其实只需要配置–jars，然后设置下driver配置即可然后执行脚本spark2-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.PreWarningScalaAppV2 \-...

2019-11-10 23:08:38 983

原创 spark on yarn cluster模式，异常：NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer

异常出现我们可以看到在org.apache.spark.streaming.kafka010.InternalKafkaConsumer找不到对应的类解决方法：因为spark对应kafka有版本要求，我们在CDH的spark中搜索kafka然后选择0.10保存之后，然后重启下Spark部署之后，重新执行命令spark2-submit \--master yarn \--d...

2019-11-10 22:31:30 1019

原创 spark on yarn cluster模式，出现异常NoSuchMethodError: com.google.common.base.Stopwatch

异常出现调用的命令如下：spark2-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.PreWarningScalaAppV2 \--jars /var/lib/hadoop-hdfs/converter-moshi-2.1.0.jar,/var/lib/hadoop-hdfs/fastjson-1.2...

2019-11-10 22:08:03 1052

原创 CDH5.16.1采用rpm+http方式离线部署（图解详细流程）

文章目录机器准备一节点初始化1.1 设置所有节点的hosts文件1.2 关闭防火墙和清空规则1.3 关闭所有节点的selinux1.4 设置所有节点的时区1.5 时钟同步1.5.1 选取hadoop001为ntp主节点1.5.2 从节点同步1.5.3 添加定时任务二 jdk部署2.1 jdk版本选择三 MySQL 安装四元数据+用户+jdbc包五 CM部署5.1 安装Server5.2 安装A...

2019-10-31 12:07:08 2934

原创 CDH5.16.1邮箱预警设置

我们要通过126邮箱发送到qq邮箱一开启126授权码二设置CDH点击Alert Publisher配置相关信息设置465端口三测试点击Alerts-> Send Test Alert测试结果如下...

2019-10-25 16:30:48 762

原创 CDH5.16.1安装Spark2.x,简称CDS安装（图解官网安装）

CDH的官网都写的很详细，我们要学会看官网的步骤去安装，是最权威的文章目录一找到Spark在哪里二安装CDS2.1 安装Service Descriptor步骤a步骤b步骤c步骤d2.2 添加包裹仓库(parcel repository)2.3 CMS配置Parcel URL2.4 下载，分发，激活2.5 添加Spark2 服务一找到Spark在哪里官网的文档地址：https://do...

2019-10-25 13:44:36 1685 1

原创 CDH安装Kafka, 简称CDK安装（图解安装）

文章目录一下载包裹文件二安装httpd三对parcel进行分发和激活四添加服务五测试数据一下载包裹文件http://archive.cloudera.com/kafka/parcels/4.1.0/创建下载的目录，并cd进去mkdir kafka_parcelcd kafka_parcel下载三个文件wget http://archive.cloudera.com/k...

2019-10-24 14:42:41 4998

原创解决spark on yarn每次都传递一堆jars的问题

问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \-...

2019-10-19 23:22:40 2161 4

原创 Hadoop支持lzo压缩（版本cdh5.15.1）

参考文章：https://www.iteblog.com/archives/992.htmlhttps://blog.csdn.net/muyingmiao/article/details/102259663https://programmer.group/using-lzo-compression-and-supporting-slicing-for-hadoop.htmlHadoop经...

2019-10-12 16:58:57 878

原创 hive自定义函数后,编译源码,并解决数据倾斜

一下载源码首先进入网站：http://archive.cloudera.com/cdh5/cdh/5/然后搜索hive-1.1.0-cdh5.15.1-src二自定义函数2.1 添加随机数前缀函数解压之后，可以用idea打开工程，然后在目录hive-1.1.0-cdh5.15.1/ql/src/java/org/apache/hadoop/hive/ql/udf下新建一个类UDFA...

2019-10-09 20:34:49 622

原创 Spark的wc过程分析

有如下代码，我们需要做wc统计def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("my-test") val sc = new SparkContext(sparkConf) val list = sc.para...

2019-10-02 21:33:12 743

原创 Spark中textFile产生了几个RDD

我们可以用toDebugString方法看看产生了几个RDDval rdd = sc.textFile("file:///home/hadoop/data/wc.dat")rdd.toDebugString从下图中可以看出，产生了2个RDD，HadoopRDD和MapPartitionsRDD为什么是两个RDD?我们进入textFile源码中进行查看def textFile( ...

2019-10-02 19:22:34 1141

原创 Spark的核心术语

官网地址：http://spark.apache.org/docs/latest/cluster-overview.htmlGlossary术语表标黄色的代表比较重要术语描述Application由driver program和集群上的executors组成Application jar用户创建的spark应用程序。所依赖的jar包在运行时传入Driver...

2019-10-02 18:20:43 418

原创 Spark中排序的几种方式

有如下的数据，我们需要对其进行排序，字段的意思分别为：商品，价格，数量val rdd = sc.parallelize(List("iphone5 1000 20", "iphone6 2000 50","iphone7 2000 100", "iphone11 5000 50"))需求：把商品按照价格升序排序一: 元祖import org.apache.spark.{Spark...

2019-10-02 16:18:36 7641

原创 spark中RDD的五大特性

RDD是什么下面这个是Spark源码中RDD的第一行描述 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel...

2019-10-01 22:50:14 3032

原创 Flume自定义Source、Sink、Interceptor

文章目录一自定义Source1.1 创建MySource1.2 打包上传1.3 配置文件1.4 启动agent1.5 结果展示二自定义Sink2.1 创建MySink2.2 打包上传2.3 配置文件2.4 启动agent三自定义Interceptor3.1 创建MyInterceptor3.2 打包上传3.3 配置文件3.4 启动agent一自定义Source现在我们自己定义一个Sou...

2019-10-01 15:00:36 686

原创 flume执行流程与事务（图解）

一执行流程图1⃣️：Source 接受数据2⃣️：Channel Processor 处理 Event3⃣️：Channel Processor 将 Event 传递给 interceptor链对 Event 进行过滤操作4⃣️：过滤完之后再把 Event 发送回 Channel Prodessor5⃣️：Channel Processor把 Event 发送给Channel sele...

2019-09-30 22:14:11 1992

原创 scala中的隐式转换

文章目录一隐式类型转换二隐式参数2.1 正常使用2.2 参数类型错误2.3 参数过多错误2.4 带有默认值2.5 柯力化三隐式类隐式转换的目的：对某些现有的类进行增强隐式转换中主要用三种：隐式类型转换、隐式参数、隐式类一隐式类型转换例如有如下代码：class Man(val name: String) {}class SuperMan(name: String) { d...

2019-09-26 21:24:45 503

原创 scala中常用的函数式编程

文章目录一 map映射二 filter过滤三 reduce四 zip五 flatten六 groupBy/sortBy七案例-求wordcount并降序一 map映射有如下数组val d = Array(1, 2, 3, 4, 5, 6)我们现在要对数组里的每个元素乘以2d.map((x: Int) => x * 2)上面左边的"x"的意思就是数组中的每个元素， "=&gt...

2019-09-07 17:19:24 489

原创 Scala中的面向对象

文章目录一定义类1.1 类1.2 属性/方法二构造函数/继承三抽象类一定义类1.1 类scala中定义类的方式：class 类名，例如我们定义个Person类class Person{}1.2 属性/方法在类中1.添加属性的方式：val/var 名称[:类型]=值2.添加方法的方式：def 方法名(参数列表):返回值类型={方法体}class Person{ // ...

2019-09-06 16:18:27 550

原创 IDEA中MR提交作业到yarn，踩坑汇总

跑mapreduce任务只知道在在本地打成jar，提交到hadoop集群上去跑任务，如果出现错误往往很难定位错误，所以远程debug是开发中不可或缺的技能一 Permission denied（权限问题）权限问题，idea运行job时，报如下错误Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.securi...

2019-09-03 17:58:58 1735 1

原创 mac中IntelliJ IDEA运行速度慢

只要修改hosts文件即可sudo vi /etc/hosts然后在你的loclhosts后面追加：你的电脑名.local，如下图

2019-08-31 10:13:44 2146 1

原创 shell脚本检测hdfs ha发生failover时，发送邮件预警

当hdfs ha集群启动之后，我们可以通过获取配置文件key的获取到一些value信息，然后可以得到hdfs的机器名，serviceid，状态是active还是standby；准备两个文件HDFS_HA_LAST.log和HDFS_HA.log，保证每次获取信息第一行放activeHDFS_HA_LAST.log文件内容如下：hadoop001 nn1 activehadoop002 nn...

2019-08-26 10:16:52 599

原创 ssh zookeeper集群无法启动的排查

1 问题重现有如下shell脚本start-zk.sh，内容如下#!/bin/bash#zkssh hadoop001 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop002 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop003 "${ZOOKEEPER_HOME}/bin/...

2019-08-24 17:57:05 1123 2

原创 centos7用shell通过mail465端口发送邮件

1 先去QQ邮箱，开启SMTP和获取授权码先生成授权码，生成之后，授权码记录下，后面配置的时候要用2 停止sendmail服务先查看sendmail服务是否存在systemctl status sendmail如果sendmail服务不存在，那就直接进入第3节，如果服务存在并启动，那么就停止掉，执行下面代码：systemctl stop sendmailchkconfig sen...

2019-08-24 14:51:00 2508

原创 shell常用命令

文章目录1.入门2.变量定义与引用3.传递参数4.数组5.流程控制if5.1 if else 语法5.2 if else-if else 语法6.流程控制for while6.1 for循环6.2 while循环7.分割8.awk9.sed1.入门shell脚本一般都是以.sh结尾，第一行标准的写法是：#!/bin/bash例如有个hello.sh文件，内容如下：#!/bin/bashe...

2019-08-23 21:33:04 530

原创 Hadoop HA集群搭建(3台阿里云)

文章目录一阿里云主机（3台）1.1 选择云服务器ECS1.2 创建实例1.3 基本配置1.4 网络和安全组1.5 系统配置1.6 确认实例1.7 实例列表二环境准备2.1 用户和目录准备2.2 软件2.3 ip与hostname绑定2.4 设置3台机器ssh免密通信2.5 jdk安装2.6 安装ZooKeeper一阿里云主机（3台）注册和充值这里就不演示了，我们需要购买3台机器，然后选择...

2019-08-20 13:08:47 1328 1

原创 Hadoop HA架构图

文章目录一 HDFS HA架构图1.1相关的缩写描述：1.2 架构说明1.3 NN active1.4 NN standby1.5 JN1.6 zkfc二 Yarn Ha架构图2.1 ResourceManager(RM)2.2 NodeManager(NM)2.3 ApplictionMaster(AM)2.4 RMstatestore2.5 zkfc一 HDFS HA架构图架构图如下：...

2019-08-19 16:39:24 1558

原创 hadoop2.6.0-cdh5.15.1编译源码支持压缩

文章目录一为什么要编译二环境条件三安装依赖四安装软件4.1 jdk1.74.2 maven4.3 protobuf五编译hadoop六伪分布式部署一为什么要编译直接从官网上下载的hadoop-2.6.0-cdh5.15.1.tar.gz部署后，不支持压缩，生产上是不可接受的，我们可以用下面命令查看：hadoop checknative所以我们要进行编译，让他支持压缩二 ...

2019-08-17 16:00:49 862

原创 Hive、MySQL、Sqoop求TOP N

文章目录一数据说明二分析三 Sqoop3.1 什么是Sqoop3.2 Sqoop部署3.3 Sqoop简单应用3.4 Sqoop import HDFS3.5 Sqoop import Hive一数据说明目前我们有三张表1.位于MySQL的city_info表, product_info表2.位于Hive的user_click表城市信息表city_info ，字段说明如下：ci...

2019-08-13 22:56:44 500

原创 Hive分区表

在web项目中，谁在什么时候，做了什么事，都需要用日志存储用mysql存储日志数据时，logs越来越大，性能会越来越差，通常会进行分表存储，例如logs_20190101, logs_20190102在Hive中通常用分区表partition进行数据的拆分，但是在hive中是一张表，只是不同的分区，在不同的目录下面一、一级分区例如有如下数据，我们需要把此数据导入到hive的一个分区表中...

2019-08-11 15:43:07 862 1

原创 Hive函数复杂函数

1 解析url假如有下面的url'http://www.facebook.com/user/login.html?username=root&password=123456'我们要获取到里面的host,path,query,username，可以使用hive的函数parse_url_tupleselect parse_url_tuple('http://www.facebook...

2019-08-10 22:05:47 1785

原创 json导入Hive,并整理成大宽表

文章目录1 创建表2 导入Hive3 json_tuple查询数据4 整理成大宽表首先我们有如下图的json数据，我们需要把这份数据先导入到Hive，然后在整理成结构化的数据，这样我们就可以根据需求查询对应的数据了1 创建表首先先要创建一个表create table rating(json string);2 导入Hive然后把数据导入到hive中load data local ...

2019-08-10 11:58:04 2459

原创 Hive DDL DML 内置函数 wc统计

文章目录一创建表1.1 create...like...1.2 Create Table As Select二修改表三删除表3.1 Drop Table3.2 Truncate Table四内部表和外部表五 Load导入表数据六聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...

2019-08-09 15:51:06 614

原创 Hive部署

1 Hive概括在部署之前，我们先要了解什么是Hive，我们打开官网：http://hive.apache.org/1.Hive数据仓库软件可以通过SQL可以很方便的对存储在分布式仓库的大数据进行读、写、管理。解决海量结构化数据的统计问题，可以通过命令行以及JDBC的方式去访问Hive2.Hive是构建在Hadoop之上的数据仓库，适合做离线处理3.Hive是客户端，不是一个集群，主要是...

2019-08-06 15:11:45 570

原创 mysql tar部署文档整理

文章描述了mysql的部署，与相关其他命令的概括

2019-08-05 17:47:30 502

原创 yarn三种调度器

在理想状态下，我们对yarn的资源请求，应该是立即得到相应，但是实际情况往往资源是有限的，如果集群很繁忙的话，一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择1 FIFO SchedulerFIFO Scheduler 把应用按照提交的顺序拍成一个队列，上图是一个先进先出的队列，但是他并不适合共享集群，上图中job1在0点提交任务，资源使用率为100%，...

2019-08-04 11:42:09 2141

原创 wordcount案例的shuffle过程分析

如上图，假设，有个文件为test.log，大小为260mb，内容是一些单词，我们要对这些单词进行统计，统计每个每个单词出现的总次数，称之为：wordcount，下面我们分析分析mapreduce流程是怎么走的1 Splittingsplitting阶段是对我们的文件进行拆分，正常的block块默认是128m，我们文件大小为260m，那么260/128=2余4，那么一般会被拆成2个128m,...

2019-08-03 21:18:34 750