自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(150)
  • 资源 (8)
  • 论坛 (1)
  • 收藏
  • 关注

原创 docker push 异常 denied: requested access to the resource is denied

问题复现push的时候,出现如下异常:解决方法1.先登陆docker login2.再进行pushdocker push username/reponame:tagname最后,我们登陆docker官网仓库看下,是否push上传成功从上图可以看出,已经push成功...

2020-01-08 15:57:38 400

原创 dbeaver连接phoenix异常: org.apache.hadoop.hbase.util.ClassSize和Unexpected version format:11.0.3

一 异常问题通过dbeaver连接phoenix的时候,会出现如下的两种异常:Could not initialize class org.apache.hadoop.hbase.util.ClassSizeUnexpected version format:11.0.3这个问题是jdk版本的问题,dbeaver安装的时候会自带jre环境,我们看下自带的jre版本从上面图可以看出,...

2019-11-12 20:13:49 1960

原创 spark on yarn cluster模式,异常:no suitable driver

网上很多都说要配置–driver-class-path的,又说要把mysql驱动包放到spark默认的classpath下面其实只需要配置–jars,然后设置下driver配置即可然后执行脚本spark2-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.PreWarningScalaAppV2 \-...

2019-11-10 23:08:38 147

原创 spark on yarn cluster模式,异常:NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer

异常出现我们可以看到在org.apache.spark.streaming.kafka010.InternalKafkaConsumer找不到对应的类解决方法:因为spark对应kafka有版本要求,我们在CDH的spark中搜索kafka然后选择0.10保存之后,然后重启下Spark部署之后,重新执行命令spark2-submit \--master yarn \--d...

2019-11-10 22:31:30 280

原创 spark on yarn cluster模式,出现异常NoSuchMethodError: com.google.common.base.Stopwatch

异常出现调用的命令如下:spark2-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.PreWarningScalaAppV2 \--jars /var/lib/hadoop-hdfs/converter-moshi-2.1.0.jar,/var/lib/hadoop-hdfs/fastjson-1.2...

2019-11-10 22:08:03 254

原创 CDH5.16.1采用rpm+http方式离线部署(图解详细流程)

文章目录机器准备一 节点初始化1.1 设置所有节点的hosts文件1.2 关闭防火墙和清空规则1.3 关闭所有节点的selinux1.4 设置所有节点的时区1.5 时钟同步1.5.1 选取hadoop001为ntp主节点1.5.2 从节点同步1.5.3 添加定时任务二 jdk部署2.1 jdk版本选择三 MySQL 安装四 元数据+用户+jdbc包五 CM部署5.1 安装Server5.2 安装A...

2019-10-31 12:07:08 819

原创 CDH5.16.1邮箱预警设置

我们要通过126邮箱发送到qq邮箱一 开启126授权码二设置CDH点击Alert Publisher配置相关信息设置465端口三 测试点击Alerts-> Send Test Alert测试结果如下...

2019-10-25 16:30:48 205

原创 CDH5.16.1安装Spark2.x,简称CDS安装(图解官网安装)

CDH的官网都写的很详细,我们要学会看官网的步骤去安装,是最权威的文章目录一 找到Spark在哪里二 安装CDS2.1 安装Service Descriptor步骤a步骤b步骤c步骤d2.2 添加包裹仓库(parcel repository)2.3 CMS配置Parcel URL2.4 下载,分发,激活2.5 添加Spark2 服务一 找到Spark在哪里官网的文档地址:https://do...

2019-10-25 13:44:36 613 1

原创 CDH安装Kafka, 简称CDK安装(图解安装)

文章目录一 下载包裹文件二 安装httpd三 对parcel进行分发和激活四 添加服务五 测试数据一 下载包裹文件http://archive.cloudera.com/kafka/parcels/4.1.0/创建下载的目录,并cd进去mkdir kafka_parcelcd kafka_parcel下载三个文件wget http://archive.cloudera.com/k...

2019-10-24 14:42:41 2176

原创 解决spark on yarn每次都传递一堆jars的问题

问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \-...

2019-10-19 23:22:40 743

原创 Hadoop支持lzo压缩(版本cdh5.15.1)

参考文章:https://www.iteblog.com/archives/992.htmlhttps://blog.csdn.net/muyingmiao/article/details/102259663https://programmer.group/using-lzo-compression-and-supporting-slicing-for-hadoop.htmlHadoop经...

2019-10-12 16:58:57 306

原创 hive自定义函数后,编译源码,并解决数据倾斜

一 下载源码首先进入网站:http://archive.cloudera.com/cdh5/cdh/5/然后搜索hive-1.1.0-cdh5.15.1-src二 自定义函数2.1 添加随机数前缀函数解压之后,可以用idea打开工程,然后在目录hive-1.1.0-cdh5.15.1/ql/src/java/org/apache/hadoop/hive/ql/udf下新建一个类UDFA...

2019-10-09 20:34:49 112

原创 Spark的wc过程分析

有如下代码,我们需要做wc统计def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("my-test") val sc = new SparkContext(sparkConf) val list = sc.para...

2019-10-02 21:33:12 150

原创 Spark中textFile产生了几个RDD

我们可以用toDebugString方法看看产生了几个RDDval rdd = sc.textFile("file:///home/hadoop/data/wc.dat")rdd.toDebugString从下图中可以看出,产生了2个RDD,HadoopRDD和MapPartitionsRDD为什么是两个RDD?我们进入textFile源码中进行查看def textFile( ...

2019-10-02 19:22:34 410

原创 Spark的核心术语

官网地址:http://spark.apache.org/docs/latest/cluster-overview.htmlGlossary术语表标黄色的代表比较重要术语描述Application由driver program和集群上的executors组成Application jar用户创建的spark应用程序。所依赖的jar包在运行时传入Driver...

2019-10-02 18:20:43 73

原创 Spark中排序的几种方式

有如下的数据,我们需要对其进行排序,字段的意思分别为:商品,价格,数量val rdd = sc.parallelize(List("iphone5 1000 20", "iphone6 2000 50","iphone7 2000 100", "iphone11 5000 50"))需求:把商品按照价格升序排序一: 元祖import org.apache.spark.{Spark...

2019-10-02 16:18:36 1940

原创 spark中RDD的五大特性

RDD是什么下面这个是Spark源码中RDD的第一行描述 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel...

2019-10-01 22:50:14 600

原创 Flume自定义Source、Sink、Interceptor

文章目录一 自定义Source1.1 创建MySource1.2 打包上传1.3 配置文件1.4 启动agent1.5 结果展示二 自定义Sink2.1 创建MySink2.2 打包上传2.3 配置文件2.4 启动agent三 自定义Interceptor3.1 创建MyInterceptor3.2 打包上传3.3 配置文件3.4 启动agent一 自定义Source现在我们自己定义一个Sou...

2019-10-01 15:00:36 105

原创 flume执行流程与事务(图解)

一执行流程图1⃣️:Source 接受数据2⃣️:Channel Processor 处理 Event3⃣️:Channel Processor 将 Event 传递给 interceptor链对 Event 进行过滤操作4⃣️:过滤完之后再把 Event 发送回 Channel Prodessor5⃣️:Channel Processor把 Event 发送给Channel sele...

2019-09-30 22:14:11 596

原创 scala中的隐式转换

文章目录一 隐式类型转换二 隐式参数2.1 正常使用2.2 参数类型错误2.3 参数过多错误2.4 带有默认值2.5 柯力化三 隐式类隐式转换的目的:对某些现有的类进行增强隐式转换中主要用三种:隐式类型转换、隐式参数、隐式类一 隐式类型转换例如有如下代码:class Man(val name: String) {}class SuperMan(name: String) { d...

2019-09-26 21:24:45 72

原创 scala中常用的函数式编程

文章目录一 map映射二 filter过滤三 reduce四 zip五 flatten六 groupBy/sortBy七 案例-求wordcount并降序一 map映射有如下数组val d = Array(1, 2, 3, 4, 5, 6)我们现在要对数组里的每个元素乘以2d.map((x: Int) => x * 2)上面左边的"x"的意思就是数组中的每个元素, "=&gt...

2019-09-07 17:19:24 85

原创 Scala中的面向对象

文章目录一 定义类1.1 类1.2 属性/方法二 构造函数/继承三 抽象类一 定义类1.1 类scala中定义类的方式:class 类名,例如我们定义个Person类class Person{}1.2 属性/方法在类中1.添加属性的方式:val/var 名称[:类型]=值2.添加方法的方式:def 方法名(参数列表):返回值类型={方法体}class Person{ // ...

2019-09-06 16:18:27 124

原创 IDEA中MR提交作业到yarn,踩坑汇总

跑mapreduce任务只知道在在本地打成jar,提交到hadoop集群上去跑任务,如果出现错误往往很难定位错误,所以远程debug是开发中不可或缺的技能一 Permission denied(权限问题)权限问题,idea运行job时,报如下错误Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.securi...

2019-09-03 17:58:58 806

原创 mac中IntelliJ IDEA运行速度慢

只要修改hosts文件即可sudo vi /etc/hosts然后在你的loclhosts后面追加:你的电脑名.local,如下图

2019-08-31 10:13:44 915

原创 shell脚本检测hdfs ha发生failover时,发送邮件预警

当hdfs ha集群启动之后,我们可以通过获取配置文件key的获取到一些value信息,然后可以得到hdfs的机器名,serviceid,状态是active还是standby;准备两个文件HDFS_HA_LAST.log和HDFS_HA.log,保证每次获取信息第一行放activeHDFS_HA_LAST.log文件内容如下:hadoop001 nn1 activehadoop002 nn...

2019-08-26 10:16:52 98

原创 ssh zookeeper集群无法启动的排查

1 问题重现有如下shell脚本start-zk.sh,内容如下#!/bin/bash#zkssh hadoop001 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop002 "${ZOOKEEPER_HOME}/bin/zkServer.sh start"ssh hadoop003 "${ZOOKEEPER_HOME}/bin/...

2019-08-24 17:57:05 389 2

原创 centos7用shell通过mail465端口发送邮件

1 先去QQ邮箱,开启SMTP和获取授权码先生成授权码,生成之后,授权码记录下,后面配置的时候要用2 停止sendmail服务先查看sendmail服务是否存在systemctl status sendmail如果sendmail服务不存在,那就直接进入第3节,如果服务存在并启动,那么就停止掉,执行下面代码:systemctl stop sendmailchkconfig sen...

2019-08-24 14:51:00 1312

原创 shell常用命令

文章目录1.入门2.变量定义与引用3.传递参数4.数组5.流程控制if5.1 if else 语法5.2 if else-if else 语法6.流程控制for while6.1 for循环6.2 while循环7.分割8.awk9.sed1.入门shell脚本一般都是以.sh结尾,第一行标准的写法是:#!/bin/bash例如有个hello.sh文件,内容如下:#!/bin/bashe...

2019-08-23 21:33:04 118

原创 Hadoop HA集群搭建(3台阿里云)

文章目录一 阿里云主机(3台)1.1 选择云服务器ECS1.2 创建实例1.3 基本配置1.4 网络和安全组1.5 系统配置1.6 确认实例1.7 实例列表二 环境准备2.1 用户和目录准备2.2 软件2.3 ip与hostname绑定2.4 设置3台机器ssh免密通信2.5 jdk安装2.6 安装ZooKeeper一 阿里云主机(3台)注册和充值这里就不演示了,我们需要购买3台机器,然后选择...

2019-08-20 13:08:47 523 1

原创 Hadoop HA架构图

文章目录一 HDFS HA架构图1.1相关的缩写描述:1.2 架构说明1.3 NN active1.4 NN standby1.5 JN1.6 zkfc二 Yarn Ha架构图2.1 ResourceManager(RM)2.2 NodeManager(NM)2.3 ApplictionMaster(AM)2.4 RMstatestore2.5 zkfc一 HDFS HA架构图架构图如下:...

2019-08-19 16:39:24 504

原创 hadoop2.6.0-cdh5.15.1编译源码支持压缩

文章目录一 为什么要编译二 环境条件三 安装依赖四 安装软件4.1 jdk1.74.2 maven4.3 protobuf五 编译hadoop六 伪分布式部署一 为什么要编译直接从官网上下载的hadoop-2.6.0-cdh5.15.1.tar.gz部署后,不支持压缩,生产上是不可接受的,我们可以用下面命令查看:hadoop checknative所以我们要进行编译,让他支持压缩二 ...

2019-08-17 16:00:49 279

原创 Hive、MySQL、Sqoop求TOP N

文章目录一 数据说明二 分析三 Sqoop3.1 什么是Sqoop3.2 Sqoop部署3.3 Sqoop简单应用3.4 Sqoop import HDFS3.5 Sqoop import Hive一 数据说明目前我们有三张表1.位于MySQL的city_info表, product_info表2.位于Hive的user_click表城市信息表city_info ,字段说明如下:ci...

2019-08-13 22:56:44 65

原创 Hive分区表

在web项目中,谁在什么时候,做了什么事,都需要用日志存储用mysql存储日志数据时,logs越来越大,性能会越来越差,通常会进行分表存储,例如logs_20190101, logs_20190102在Hive中通常用分区表partition进行数据的拆分,但是在hive中是一张表,只是不同的分区,在不同的目录下面一、一级分区例如有如下数据,我们需要把此数据导入到hive的一个分区表中...

2019-08-11 15:43:07 185

原创 Hive函数 复杂函数

1 解析url假如有下面的url'http://www.facebook.com/user/login.html?username=root&password=123456'我们要获取到里面的host,path,query,username,可以使用hive的函数parse_url_tupleselect parse_url_tuple('http://www.facebook...

2019-08-10 22:05:47 509

原创 json导入Hive,并整理成大宽表

文章目录1 创建表2 导入Hive3 json_tuple查询数据4 整理成大宽表首先我们有如下图的json数据,我们需要把这份数据先导入到Hive,然后在整理成结构化的数据,这样我们就可以根据需求查询对应的数据了1 创建表首先先要创建一个表create table rating(json string);2 导入Hive然后把数据导入到hive中load data local ...

2019-08-10 11:58:04 932

原创 Hive DDL DML 内置函数 wc统计

文章目录一 创建表1.1 create...like...1.2 Create Table As Select二 修改表三 删除表3.1 Drop Table3.2 Truncate Table四 内部表和外部表五 Load导入表数据六 聚合函数七 case when八 order by、sort by、distribute by、cluster by8.1 order by8.2 sort by...

2019-08-09 15:51:06 114

原创 Hive部署

1 Hive概括在部署之前,我们先要了解什么是Hive,我们打开官网:http://hive.apache.org/1.Hive数据仓库软件可以通过SQL可以很方便的对存储在分布式仓库的大数据进行读、写、管理。解决海量结构化数据的统计问题,可以通过命令行以及JDBC的方式去访问Hive2.Hive是构建在Hadoop之上的数据仓库,适合做离线处理3.Hive是客户端,不是一个集群,主要是...

2019-08-06 15:11:45 129

原创 mysql tar部署 文档整理

文章描述了mysql的部署,与相关其他命令的概括

2019-08-05 17:47:30 145

原创 yarn三种调度器

在理想状态下,我们对yarn的资源请求,应该是立即得到相应,但是实际情况往往资源是有限的,如果集群很繁忙的话,一个应用的资源请求需要等待一段时间才能得到资源。为此yarn提供了三种调度器供我们选择1 FIFO SchedulerFIFO Scheduler 把应用按照提交的顺序拍成一个队列,上图是一个先进先出的队列,但是他并不适合共享集群,上图中job1在0点提交任务,资源使用率为100%,...

2019-08-04 11:42:09 774

原创 wordcount案例的shuffle过程分析

如上图,假设,有个文件为test.log,大小为260mb,内容是一些单词,我们要对这些单词进行统计,统计每个每个单词出现的总次数,称之为:wordcount,下面我们分析分析mapreduce流程是怎么走的1 Splittingsplitting阶段是对我们的文件进行拆分,正常的block块默认是128m,我们文件大小为260m,那么260/128=2余4,那么一般会被拆成2个128m,...

2019-08-03 21:18:34 251

Spring SpringMVC MyBatis整合包

附件已将spring,springMVC,mybatis整合完成,只需要开发业务即可

2018-07-07

JavaWeb 增删改查

通过浏览器对数据库中的表格进行增删改查,以及对数据库进行批量删除

2018-06-07

JavaWeb ajax异步自动填充信息

ajax异步自动填充信息,类似于百度查询的简单demo,希望能帮到大家

2018-06-05

Java jdbc三层及事务(转账案例)

通过转账案例讲解了三层和事务,以及容易出现问题的关键点

2018-05-10

自定义dbutils下的MyQueryRunner

1.如果我们只会使用一些工具,那是知其然,但是如果我们也能写出一个类似的工具,那就是知其所以然 2.站在框架设计者的角度看本文,主要理解QueryRunner底层的思想,设计原理,同时还可以辅助理解动态代理

2018-05-08

java动态代理实现自定义连接池

1.主要理解动态代理的设计思想 2.理解连接池的设计思想以及优点

2018-05-06

JDBC 工具类JdbcUtils封装与测试应用(针对mysql)

通过JdbcUtils工具类将数据库驱动,连接,资源关闭全部封装起来,需要的时候直接调用

2018-05-03

提取Email地址

目的:C#通过正则表达式提取html中的Email,欢迎大家下载,有问题交流沟通!

2017-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除