自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (2)
  • 收藏
  • 关注

原创 Doris的数据模型和增删改查操作

Doris的基本操作

2022-12-15 23:14:00 4950 2

原创 Canal介绍

Cana介绍&简单使用

2022-12-12 15:51:07 427

原创 Oracle XE简介

Oracle XE简介说明,内容来自于官网译注,目的是方便国内爱好者阅读。

2022-12-06 16:44:03 3943

原创 Spark任务提交时报错bad substitution

Spark任务提交时报错bad substitution问题描述在集群中使用spark-submit提交spark任务时,报错Exception message: /hadoop/yarn/local/usercache/qxadmin/appcache/application_1631068541144_0002/container_e10_1631068541144_0002_01_000001/launch_container.sh:行22: PWD:PWD:PWD:PWD/spark_con

2022-04-28 12:34:51 521

原创 如何优雅地使用Hive内置函数

如何优雅使用Hive内置函数在使用Hive时,相信有不少人会对Hive的内置函数比较困惑:到底有哪些内置函数?每个函数怎么用呢?参数如何指定?等等这些问题,在这里将会以最优雅的方式给你解决。进入Hive后,需要查询Hive所有内置函数,输入命令:show functions; 需要查询具体某个函数,比如when的用法,输入命令:desc/describe function when;需要查询具体某个函数,比如whend 详细用法,输入命令:desc/describe function ex

2022-04-28 11:59:56 95

原创 Spark自带example

Spark自带examples案例1.SparkPi在SPARK_HOME目录下运行如下命令:bin/run-example org.apache.spark.examples.SparkPi结果如下图所示:到此,案例成功运行,运行结果为:Pi is roughly 3.14021570107850552.others其他案例也是类似,注意两个问题:必须是run-example命令。确定类名。类名可以在SPARK_HOME目录下的examples/src/main/scala/

2022-04-28 11:59:18 3300 2

原创 Hive不同引擎下的队列

Hive不同引擎&队列1.设置不同的执行引擎1.设置为(mr)MapReduce引擎:set hive.execution.engine=mr;2.设置为tez引擎:set hive.execution.engine=tez;3.设置为spark引擎set hive.execution.engine=spark;注意:Hive1.X没有spark引擎,Hive3.X没有mr引擎,Hive2.X没印象了。2.设置不同引擎下的队列1.如果是默认引擎(mr)MapReduce,那

2022-04-28 11:58:07 1064

原创 关于Hive SQL是否走MR任务的总结

关于Hive SQL是否走MR任务的总结Hive1.X和Hive2.X的版本,默认情况下,一般都会走MR程序。除了三种情况:1.select * from table_name#select * 的情况不会走MR2.select column1,column2 ... from table_name#select指定字段名的情况不会走MR(where和having除外)3.select * from table_name limit N#select * 限制输出条数不会走MR当然,以上说

2022-04-28 11:57:57 1597

原创 HDFS透明加密

HDFS透明加密配置集群key.provider.uridfs.encryption.key.provider.uri#The KeyProvider to use when interacting with encryption keys used when reading and writing to an encryption zone.#当往加密空间读写时需要使用它来做交互。配置加密算法和编解码hadoop.security.crypto.codec.classes.EXAMPLECI

2022-04-28 11:57:24 472

原创 HDFS目录数及大小设置

HDFS目录数及大小设置前言由于时间紧急,本人稍微调研了下,HDFS配置中是有目录文件夹数量限额的,但没有存储空间资源限额。需求1.需要在集群管理上开发项目使用的HDFS目录下的文件数量限额。比如一个HDFS目录下最多运行10个文件。2.需要在集群管理上开发项目使用的存储资源限额。比如:一个目录不能超过100G。调研针对这两个小需求,去官网找了下hdfs-site.xml的所有属性配置。得到的结论是:可以设置HDFS目录下文件数量,但不能设置文件的存储大小。<!--这个属性是设置HD

2022-04-28 11:56:45 2976 2

原创 Flink 性能调优

Flink 性能调优SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外,Flink Table API 和 SQL 是高效优化过的,它集成了许多查询优化和算子优化。但并不是所有的优化都是默认开启的,因此对于某些工作负载,可以通过打开某些选项来提高性能。1.MiniBatch 聚合默认情况下,无界聚合算子是逐条处理输入的记录,即:(1)从状态中读取累加器,(2)累加/撤回记录至累加器,(3)将累加器写回状态,(4)

2022-04-27 20:36:54 538

原创 Flink 异步IO

Flink 异步I/O1.概述在与外部系统交互(用数据库中的数据扩充流数据)的时候,需要考虑与外部系统的通信延迟对整个流处理应用的影响。简单地访问外部数据库的数据,比如使用 MapFunction,通常意味着同步交互: MapFunction 向数据库发送一个请求然后一直等待,直到收到响应。在许多情况下,等待占据了函数运行的大部分时间。与数据库异步交互是指一个并行函数实例可以并发地处理多个请求和接收多个响应。这样,函数在等待的时间可以发送其他请求和接收其他响应。至少等待的时间可以被多个请求摊分。大多

2022-04-27 20:35:09 1653

原创 Flink 累加器Accumulator

Flink 累加器Accumulator1.概述累加器是具有加法运算和最终累加结果的一种简单结构,可在作业结束后使用。最简单的累加器就是计数器: 你可以使用 Accumulator.add(V value) 方法将其递增。在作业结束时,Flink 会汇总(合并)所有部分的结果并将其发送给客户端。Flink 目前有如下内置累加器。都实现了累加器接口。IntCounter, LongCounter 和 DoubleCounter : 有关使用计数器的示例,请参见下文。直方图 : 离散数量的柱状直方

2022-04-27 20:34:25 1341

原创 广播变量&分布式缓存

广播变量&分布式缓存1.广播变量我们知道Flink是并行的,计算过程可能不在一个 Slot 中进行,那么有一种情况即:当我们需要访问同一份数据。那么Flink中的广播变量就是为了解决这种情况。我们可以把广播变量理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节点上只会存在一份。看看官网的说法官网关于广播变量的使用如下:// 1. The DataSet to be broadcastDataSet

2022-04-27 20:32:46 547

原创 Flink并行度及设置

Flink并行度及设置1.概述一个 Flink 程序由多个任务 task 组成(转换/算子、数据源和数据接收器)。一个 task 包括多个并行执行的实例,且每一个实例都处理 task 输入数据的一个子集。一个 task 的并行实例数被称为该 task 的 并行度 (parallelism)。2.设置算子层次单个算子、数据源和数据接收器的并行度可以通过调用 setParallelism()方法来指定。如下所示:final StreamExecutionEnvironment env = Str

2022-04-27 20:30:28 4643

原创 Flink重启策略

Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。 如果尝试超过了给定的最大次数,作业将最终失败。 在连续的两次重启尝试之间,重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数,默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte

2022-04-27 20:29:55 843

原创 Flink重启策略

Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。 如果尝试超过了给定的最大次数,作业将最终失败。 在连续的两次重启尝试之间,重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数,默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte

2022-04-27 20:28:43 493

原创 Flink SQL客户端

Flink SQL客户端1.概述Flink 的 Table & SQL API 可以处理 SQL 语言编写的查询语句,但是这些查询需要嵌入用 Java 或 Scala 编写的表程序中。此外,这些程序在提交到集群前需要用构建工具打包。这或多或少限制了 Java/Scala 程序员对 Flink 的使用。SQL 客户端 的目的是提供一种简单的方式来编写、调试和提交表程序到 Flink 集群上,而无需写一行 Java 或 Scala 代码。SQL 客户端命令行界面(CLI) 能够在命令行中检索和可视

2022-04-27 20:27:29 2901

原创 Flink On Yarn提交方式

Flink On Yarn提交方式1.前言Flink On Yarn(1.13版本)官网链接:https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/deployment/resource-providers/yarn/与其网上各说纷纭,还不如看官网,下面所有的言论都出自该页面。2.环境准备确认是否有yarn环境#运行如下命令,不报错就表示yarn环境OK。yarn top确认是否有HADOOP_CLAS

2022-04-27 20:24:45 1641

原创 Flink Checkpoint机制

来源Flink官网

2022-04-27 20:23:05 732

原创 MySQL日志

MySQL日志1.介绍MySQL的日志分为三部分,分别是binlog,undolog,redolog。2.binlog日志binlog: 二进制的全量日志, 可以记录MySQL所有库的所有增伤改的操作, MySQL库级别,默认不开启, 可以是追加写的方式,不会覆盖之前的日志信息。3.undolog日志undolog: innodb存储引擎级别日志, 保证事务的原子性, 用来实现多版本并发控制 MVCC, undolog是逻辑日志, 意思是如果事务中有insert记录,则会在u

2022-02-16 16:18:50 348

原创 MySQL的存储引擎

MySQL的存储引擎存储引擎是数据库的基座,不同的存储引擎提供不同的存储机制,索引等功能。存储引擎是MySQL的一大特性。支持切换,可以根据业务灵活配置。首先看下MySQL的版本,输入命令:select version();其次,看下5.7.31版本中支持的存储引擎有哪些,输入命令:show engines;可以看到,一共有9种存储引擎,改版本支持8中。常用的存储引擎,比如:InnoDB,MyISAM都有。存储引擎描述InnoDB默认,支持事务、行级锁、外键MyI

2022-02-15 15:45:12 478

原创 Linux7.X安装MySQL(极简终极版)

Linux7.X安装MySQL(极简终极版)前置说明安装方式:yum在线安装。操作系统:Linux7.X版本。MySQL版本:可在一定范围内自定义。安装步骤由于yum在线安装需要本机/etc/yum.repos.d/路径下后缀为.repo的文件,而Linux操作系统默认不提供mysql的repo文件,因此需要去mysql官网下载相应的repo文件。也就是说,你的Linux想在线安装mysql的前提就是先在本机把mysql的repo文件加上。还有一个问题:这个文件怎么加上呢?可以手动创建吗?当

2021-12-17 15:06:47 2240

原创 Hive on Spark VS Spark on Hive

Hive on Spark VS Spark on Hive两者概述Hive on SparkHive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。Hive on spark大体与SparkS

2021-12-10 16:28:54 5335

原创 解决Hive on Spark与Spark on Hive之间表数据不互通问题

解决Hive on Spark与Spark on Hive之间表数据不互通问题问题描述通过Ambari2.7.5安装HDP3.1.5集群后,spark-sql和hive虽然已经实现了整合,无论在hive还是spark-sql都能看到对等的数据;但是如果是在spark-sql下创建的表,则无法在hive下插入数据。反之亦然。如下图所示:从上图可以看到:test1表是spark-sql创建并插入一条数据,可以在hive中查看。但是执行insert时报错。提示:Failed to create Sp

2021-12-10 16:26:14 1764

原创 Clock skew too great

Clock skew too great问题描述临近下班时间,一同事问,客户端kerberos认证成功后,访问Hive,报错Clock skew too great。什么原因?产生原因我也是第一次碰到这种问题。于是检查了下kerberos的票据,有不对的。于是重新生成keytab文件。做了如上操作后,再次kinit认证后。仍然报该异常。这时,该同事有紧急事情,需要先走。行。你先撤吧,你把报错信息复制给我,我看下。于是上网查了下,其实问题很简单:时钟偏差太大。主要是skew单词不认识。倾斜的

2021-11-18 16:45:50 2535

原创 向YARN提交任务Retrying connect to server 0.0.0.08032异常

Retrying connect to server 0.0.0.0:8032异常问题描述**case 1:**基于HDP集群二次开发的集群中,在Client执行spark 任务的时候,在客户端页面提示Connecting to ResourceManager at 0.0.0.0:8032异常。如下图所示:**case 2:**在Client解决上述问题的同时,回归到web页面,进行冒烟测试,在使用Azkaban进行任务调度的时候,该异常二次发生,咦,刚刚已经解决了,为何还会发生呢?此时,心情是崩

2021-11-18 16:41:22 3751

原创 Kerberos异常之unnable to obtain password from user

unnable obtain password from user问题描述在大数据集群开启kerberos认证后,使用kerberos票据进行kinit认证通过。但是集群运行yarn任务时报错:javax.security.auth.login.LoginException: Unable to obtain password from user产生原因在kerberos认证的集群下,该问题会经常遇到。其实很简单,是因为使用生成kerberos票据时的linux用户与集群组件匹配不当造成的。比

2021-11-18 16:24:17 8852 1

原创 Unable to read HiveServer2 configs from ZooKeeper

Unable to read HiveServer2 configs from ZooKeeper问题描述在HDP集群开启kerberos后,在连接Hive时报错:Unable to read HiveServer2 configs from ZooKeeper产生原因原因可能很多,说不完,道不尽。但是,如果zookeeper是正常启动的话,归根结底,就一个:Hive的连接串中参数不对!!!可能的情况有:没有加keytab文件没有加krb5.conf文件principal拼错了

2021-11-18 16:23:07 12236

原创 HBase官网文档粗略解读

HBase官网文档粗略解读HBase数据库是大数据中支持分布式、大规模、大表海量数据、列式存储、支持随机、实时读写的高性能数据库。HBase官网文档对于HBase的介绍非常齐全,内容量非常庞大,读者可访问如下链接自行查看。官网链接:http://hbase.apache.org/官网文档链接:http://hbase.apache.org/book.html官网提供的中文文档链接:http://abloz.com/hbase/book.html按常理来说,中英文文档都有了,需要什么直接去找就行了

2021-07-06 21:23:43 1397 2

原创 CentOS7上官网安装Docker详细操作(附官网截图及详细说明)

CentOS7上安装Docker前言随着Docker越来越流行,作者今日想在VM上玩玩Docker,而国内市面上对于Docker的说法五花八门,眼花缭乱。想起一句话:大道至简。也是,乱花渐欲迷人眼,市场上各说纷纭,不一而同,很容易让人舍本逐末,迷失自我。做人,得返璞归真才是。鉴于此,专门去官网找了下Docker安装的说明,现整理如下。前提如需在CentOS7上安装Docker,先要准备一台以下事项:CentOS7的操作系统。自己学习研究可以使用VM安装CentOS7。操作系统最好联网,本篇博文

2021-04-30 12:17:48 1089 1

原创 VMware图文CentOS操作系统(内附源文件与安装盘,全网最全,图文并茂,纯手打)

VMware16 Pro详细安装Linux CentOS 7.X(纯手打,图文并茂)前提说明近日逛了很多Apache及墙外的网站,非常钦佩foreigner开源的精神,领悟了一些开源的魅力,收获颇多。在此之上,本着开源的原则,同时也想研究下新东西,而本机是没有Linux环境的,于是想着使用VMware来安装,因此本文档在此情况下应运而生。希望可以帮助到有需要的道友。本文主要讲述如何使用VMware16 Pro安装Linux CentOS7.X系列。准备好VMware16 Pro。准备好CentO

2021-04-23 19:17:49 229

原创 MySQL报错Too many connections解决方案

问题1: Too many connections问题描述 :项目中,mysql数据库在长时间使用的过程中,突然遇到 "Data source rejected establishment of connection, message from server: “Too many connections” .产生原因:当mysql的连接数达到上限值的时候,如果现有的连接没有关闭,则无法创建新的连接.解决方案:重启mysql服务.(当然不是最佳选择)修改mysql的一些参数1.修改最

2020-09-09 17:58:06 996

原创 大数据常用默认端口汇总(最新最全)

大数据常用默认端口汇总对于外行来说,大数据听起来高大上,但是对于行内人,大数据的特点概括起来就2个字:杂 , 碎. 而且技术更新快,需要我们时刻保持对技术的热情,也需要开发者经常总结.如此才能不被时代所淘汰.如下是大数据常用软件的端口汇总和简要概述.仅供参考.注意:如下访问路径,如无特殊说明,默认都是http://开头.| 应用 | 端口 | 路径(示例) || :----------

2020-09-09 13:38:35 1831

原创 计算机底层之位运算

位运算概述位: 英文: bit. 音译:比特. 比特位.也称为二进制位.是计算机存储数据的最小单位.(存储容量的最小单位是字节)位运算: 计算机中对于二进制数据的计算方式.就是直接对整数在内存中的二进制位进行计算.分类位运算通过位运算符来进行.位运算符包括:符号含义&(按位与)有0,则结果为0|(按位或)有1,则结果为1^(按位异或)相同为0,不同为1~(按位取反)0变1,1变0<<(左移)每移动1位,则该数乘以2的1次方

2020-09-09 13:15:40 554

原创 Linux中不同颜色文件的含义

Linux里是一个目录树类型的文件系统. 所有的文件都是从"/"(根目录)开始的 .文件的颜色代表不同的信息:红色:压缩包蓝色:文件夹绿色:可执行文件黑色:普通文件详情见下图!!!Linux初看不适应,用习惯了反而离不开它. 老子说:大道至简也是这个道理.操作系统不在乎界面的炫酷,能解决问题,能在实际工作带来便利,能持续稳定保障生产环境不出差错,降低成本才是最好的....

2020-05-16 20:32:25 1239

Retrying connect to server 0.0.0.08032异常.md

向yarn提交任务时Retrying connect to server 0.0.0.0:8032异常

2021-11-18

HBase官网文档解读.pdf

HBase初学者

2021-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除