Dennis985-CSDN博客

原创 Oracle XE简介

Oracle XE简介说明，内容来自于官网译注，目的是方便国内爱好者阅读。

2022-12-06 16:44:03 4306

原创 Spark任务提交时报错bad substitution

Spark任务提交时报错bad substitution问题描述在集群中使用spark-submit提交spark任务时，报错Exception message: /hadoop/yarn/local/usercache/qxadmin/appcache/application_1631068541144_0002/container_e10_1631068541144_0002_01_000001/launch_container.sh:行22: PWD:PWD:PWD:PWD/spark_con

2022-04-28 12:34:51 548

原创如何优雅地使用Hive内置函数

如何优雅使用Hive内置函数在使用Hive时，相信有不少人会对Hive的内置函数比较困惑：到底有哪些内置函数？每个函数怎么用呢？参数如何指定？等等这些问题，在这里将会以最优雅的方式给你解决。进入Hive后，需要查询Hive所有内置函数，输入命令：show functions; 需要查询具体某个函数，比如when的用法，输入命令：desc/describe function when;需要查询具体某个函数，比如whend 详细用法，输入命令：desc/describe function ex

2022-04-28 11:59:56 109

原创 Spark自带example

Spark自带examples案例1.SparkPi在SPARK_HOME目录下运行如下命令：bin/run-example org.apache.spark.examples.SparkPi结果如下图所示：到此，案例成功运行，运行结果为：Pi is roughly 3.14021570107850552.others其他案例也是类似，注意两个问题：必须是run-example命令。确定类名。类名可以在SPARK_HOME目录下的examples/src/main/scala/

2022-04-28 11:59:18 3568 2

原创 Hive不同引擎下的队列

Hive不同引擎&队列1.设置不同的执行引擎1.设置为（mr）MapReduce引擎：set hive.execution.engine=mr;2.设置为tez引擎：set hive.execution.engine=tez;3.设置为spark引擎set hive.execution.engine=spark;注意：Hive1.X没有spark引擎，Hive3.X没有mr引擎，Hive2.X没印象了。2.设置不同引擎下的队列1.如果是默认引擎（mr）MapReduce，那

2022-04-28 11:58:07 1177

原创关于Hive SQL是否走MR任务的总结

关于Hive SQL是否走MR任务的总结Hive1.X和Hive2.X的版本，默认情况下，一般都会走MR程序。除了三种情况：1.select * from table_name#select * 的情况不会走MR2.select column1,column2 ... from table_name#select指定字段名的情况不会走MR（where和having除外）3.select * from table_name limit N#select * 限制输出条数不会走MR当然，以上说

2022-04-28 11:57:57 1686

原创 HDFS透明加密

HDFS透明加密配置集群key.provider.uridfs.encryption.key.provider.uri#The KeyProvider to use when interacting with encryption keys used when reading and writing to an encryption zone.#当往加密空间读写时需要使用它来做交互。配置加密算法和编解码hadoop.security.crypto.codec.classes.EXAMPLECI

2022-04-28 11:57:24 516

原创 HDFS目录数及大小设置

HDFS目录数及大小设置前言由于时间紧急，本人稍微调研了下，HDFS配置中是有目录文件夹数量限额的，但没有存储空间资源限额。需求1.需要在集群管理上开发项目使用的HDFS目录下的文件数量限额。比如一个HDFS目录下最多运行10个文件。2.需要在集群管理上开发项目使用的存储资源限额。比如：一个目录不能超过100G。调研针对这两个小需求，去官网找了下hdfs-site.xml的所有属性配置。得到的结论是：可以设置HDFS目录下文件数量，但不能设置文件的存储大小。<!--这个属性是设置HD

2022-04-28 11:56:45 3296 2

原创 Flink 性能调优

Flink 性能调优SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外，Flink Table API 和 SQL 是高效优化过的，它集成了许多查询优化和算子优化。但并不是所有的优化都是默认开启的，因此对于某些工作负载，可以通过打开某些选项来提高性能。1.MiniBatch 聚合默认情况下，无界聚合算子是逐条处理输入的记录，即：（1）从状态中读取累加器，（2）累加/撤回记录至累加器，（3）将累加器写回状态，（4）

2022-04-27 20:36:54 550

原创 Flink 异步IO

Flink 异步I/O1.概述在与外部系统交互（用数据库中的数据扩充流数据）的时候，需要考虑与外部系统的通信延迟对整个流处理应用的影响。简单地访问外部数据库的数据，比如使用 MapFunction，通常意味着同步交互： MapFunction 向数据库发送一个请求然后一直等待，直到收到响应。在许多情况下，等待占据了函数运行的大部分时间。与数据库异步交互是指一个并行函数实例可以并发地处理多个请求和接收多个响应。这样，函数在等待的时间可以发送其他请求和接收其他响应。至少等待的时间可以被多个请求摊分。大多

2022-04-27 20:35:09 1695

原创 Flink 累加器Accumulator

Flink 累加器Accumulator1.概述累加器是具有加法运算和最终累加结果的一种简单结构，可在作业结束后使用。最简单的累加器就是计数器: 你可以使用 Accumulator.add(V value) 方法将其递增。在作业结束时，Flink 会汇总（合并）所有部分的结果并将其发送给客户端。Flink 目前有如下内置累加器。都实现了累加器接口。IntCounter, LongCounter 和 DoubleCounter : 有关使用计数器的示例，请参见下文。直方图 : 离散数量的柱状直方

2022-04-27 20:34:25 1365

原创广播变量&分布式缓存

广播变量&分布式缓存1.广播变量我们知道Flink是并行的，计算过程可能不在一个 Slot 中进行，那么有一种情况即：当我们需要访问同一份数据。那么Flink中的广播变量就是为了解决这种情况。我们可以把广播变量理解为是一个公共的共享变量，我们可以把一个dataset 数据集广播出去，然后不同的task在节点上都能够获取到，这个数据在每个节点上只会存在一份。看看官网的说法官网关于广播变量的使用如下：// 1. The DataSet to be broadcastDataSet

2022-04-27 20:32:46 559

原创 Flink并行度及设置

Flink并行度及设置1.概述一个 Flink 程序由多个任务 task 组成（转换/算子、数据源和数据接收器）。一个 task 包括多个并行执行的实例，且每一个实例都处理 task 输入数据的一个子集。一个 task 的并行实例数被称为该 task 的并行度 (parallelism)。2.设置算子层次单个算子、数据源和数据接收器的并行度可以通过调用 setParallelism()方法来指定。如下所示：final StreamExecutionEnvironment env = Str

2022-04-27 20:30:28 4731

原创 Flink重启策略

Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。如果尝试超过了给定的最大次数，作业将最终失败。在连续的两次重启尝试之间，重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数，默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte

2022-04-27 20:29:55 880

原创 Flink重启策略

Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。如果尝试超过了给定的最大次数，作业将最终失败。在连续的两次重启尝试之间，重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数，默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte

2022-04-27 20:28:43 517

原创 Flink SQL客户端

Flink SQL客户端1.概述Flink 的 Table & SQL API 可以处理 SQL 语言编写的查询语句，但是这些查询需要嵌入用 Java 或 Scala 编写的表程序中。此外，这些程序在提交到集群前需要用构建工具打包。这或多或少限制了 Java/Scala 程序员对 Flink 的使用。SQL 客户端的目的是提供一种简单的方式来编写、调试和提交表程序到 Flink 集群上，而无需写一行 Java 或 Scala 代码。SQL 客户端命令行界面（CLI）能够在命令行中检索和可视

2022-04-27 20:27:29 2930

原创 Flink On Yarn提交方式

Flink On Yarn提交方式1.前言Flink On Yarn（1.13版本）官网链接：https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/deployment/resource-providers/yarn/与其网上各说纷纭，还不如看官网，下面所有的言论都出自该页面。2.环境准备确认是否有yarn环境#运行如下命令，不报错就表示yarn环境OK。yarn top确认是否有HADOOP_CLAS

2022-04-27 20:24:45 1696

原创 Flink Checkpoint机制

来源Flink官网

2022-04-27 20:23:05 760

原创 MySQL日志

MySQL日志1.介绍MySQL的日志分为三部分，分别是binlog，undolog，redolog。2.binlog日志binlog：二进制的全量日志，可以记录MySQL所有库的所有增伤改的操作， MySQL库级别，默认不开启，可以是追加写的方式，不会覆盖之前的日志信息。3.undolog日志undolog： innodb存储引擎级别日志，保证事务的原子性，用来实现多版本并发控制 MVCC， undolog是逻辑日志，意思是如果事务中有insert记录，则会在u

2022-02-16 16:18:50 356

原创 MySQL的存储引擎

MySQL的存储引擎存储引擎是数据库的基座，不同的存储引擎提供不同的存储机制，索引等功能。存储引擎是MySQL的一大特性。支持切换，可以根据业务灵活配置。首先看下MySQL的版本，输入命令：select version();其次，看下5.7.31版本中支持的存储引擎有哪些，输入命令：show engines;可以看到，一共有9种存储引擎，改版本支持8中。常用的存储引擎，比如：InnoDB，MyISAM都有。存储引擎描述InnoDB默认，支持事务、行级锁、外键MyI

2022-02-15 15:45:12 499

原创 Linux7.X安装MySQL(极简终极版)

Linux7.X安装MySQL(极简终极版)前置说明安装方式：yum在线安装。操作系统：Linux7.X版本。MySQL版本：可在一定范围内自定义。安装步骤由于yum在线安装需要本机/etc/yum.repos.d/路径下后缀为.repo的文件，而Linux操作系统默认不提供mysql的repo文件，因此需要去mysql官网下载相应的repo文件。也就是说，你的Linux想在线安装mysql的前提就是先在本机把mysql的repo文件加上。还有一个问题：这个文件怎么加上呢？可以手动创建吗？当

2021-12-17 15:06:47 2252

原创 Hive on Spark VS Spark on Hive

Hive on Spark VS Spark on Hive两者概述Hive on SparkHive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。Hive on spark大体与SparkS

2021-12-10 16:28:54 5429

原创解决Hive on Spark与Spark on Hive之间表数据不互通问题

解决Hive on Spark与Spark on Hive之间表数据不互通问题问题描述通过Ambari2.7.5安装HDP3.1.5集群后，spark-sql和hive虽然已经实现了整合，无论在hive还是spark-sql都能看到对等的数据；但是如果是在spark-sql下创建的表，则无法在hive下插入数据。反之亦然。如下图所示：从上图可以看到：test1表是spark-sql创建并插入一条数据，可以在hive中查看。但是执行insert时报错。提示：Failed to create Sp

2021-12-10 16:26:14 1821

原创 Clock skew too great

Clock skew too great问题描述临近下班时间，一同事问，客户端kerberos认证成功后，访问Hive，报错Clock skew too great。什么原因？产生原因我也是第一次碰到这种问题。于是检查了下kerberos的票据，有不对的。于是重新生成keytab文件。做了如上操作后，再次kinit认证后。仍然报该异常。这时，该同事有紧急事情，需要先走。行。你先撤吧，你把报错信息复制给我，我看下。于是上网查了下，其实问题很简单：时钟偏差太大。主要是skew单词不认识。倾斜的

2021-11-18 16:45:50 2773

原创向YARN提交任务Retrying connect to server 0.0.0.08032异常

Retrying connect to server 0.0.0.0:8032异常问题描述**case 1：**基于HDP集群二次开发的集群中，在Client执行spark 任务的时候，在客户端页面提示Connecting to ResourceManager at 0.0.0.0:8032异常。如下图所示：**case 2：**在Client解决上述问题的同时，回归到web页面，进行冒烟测试，在使用Azkaban进行任务调度的时候，该异常二次发生，咦，刚刚已经解决了，为何还会发生呢？此时，心情是崩

2021-11-18 16:41:22 3954

u012667450的博客

原创 Doris的数据模型和增删改查操作

原创 Canal介绍

原创 Oracle XE简介

原创 Spark任务提交时报错bad substitution

原创如何优雅地使用Hive内置函数

原创 Spark自带example

原创 Hive不同引擎下的队列

原创关于Hive SQL是否走MR任务的总结

原创 HDFS透明加密

原创 HDFS目录数及大小设置

原创 Flink 性能调优

原创 Flink 异步IO

原创 Flink 累加器Accumulator

原创广播变量&分布式缓存

原创 Flink并行度及设置

原创 Flink重启策略

原创 Flink重启策略

原创 Flink SQL客户端

原创 Flink On Yarn提交方式

原创 Flink Checkpoint机制

原创 MySQL日志

原创 MySQL的存储引擎

原创 Linux7.X安装MySQL(极简终极版)

原创 Hive on Spark VS Spark on Hive

原创解决Hive on Spark与Spark on Hive之间表数据不互通问题

原创 Clock skew too great

原创向YARN提交任务Retrying connect to server 0.0.0.08032异常

原创 Kerberos异常之unnable to obtain password from user

原创 Unable to read HiveServer2 configs from ZooKeeper

原创 HBase官网文档粗略解读

原创 CentOS7上官网安装Docker详细操作(附官网截图及详细说明)

原创 VMware图文CentOS操作系统(内附源文件与安装盘，全网最全，图文并茂，纯手打)

原创 MySQL报错Too many connections解决方案

原创大数据常用默认端口汇总(最新最全)

原创计算机底层之位运算

原创 Linux中不同颜色文件的含义

Retrying connect to server 0.0.0.08032异常.md

HBase官网文档解读.pdf

空空如也