Splicing-CSDN博客

原创浏览器连不上 Flink WebUI 8081 端口

【代码】浏览器连不上 Flink WebUI 8081 端口。

2023-09-01 15:12:41 1873

① 删除 PyCharm 程序本身，如果没有安装多个版本，如下命令即可。② 也可以在界面的应用程序里找到 PyCharm 文件右键并删除。删除 PyCharm 指定版本应用数据及插件数据等等。根据自身电脑而定，一般此目录下只存在一个一个文件。删除 PyCharm 指定版本运行时，产生的日志。删除 PyCharm 指定版本相关的偏好设置。删除 PyCharm 指定版本相关的缓存数据。应用程序的诊断日志都放在。类似的文件然后再递归查找。

2023-08-30 15:46:30 3951 1

原创 Mac 卸载 IntelliJ IDEA 方法

直接复制上面的命令，粘贴在命令终端即可，最后一个命令需要回车一下。删除 IDEA 程序本身，如果没有安装多个版本，如下命令即可。删除 IDEA 指定版本应用数据及插件数据等等。删除 IDEA 指定版本运行时，产生的日志。删除 IDEA 指定版本相关的偏好设置。删除 IDEA 指定版本相关的缓存数据。删除当前用户下的其他相关文件。应用程序的诊断日志都放在。

2023-08-04 15:20:45 8102

原创 DataX 异构数据贴源同步产品 - 技术分享篇（一）

DataX 是阿里开源的一个异构数据源离线同步工具。

2023-08-02 16:54:39 316

原创 HBase应用场景、原理与基本架构

表中每条记录的“主键”,方便快速查找,每一行的rowkey必须是唯一的,无需以递增的顺序插入.Column Family。:每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列;:每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳;:对于空(null)的列，并不占用存储空间，表可以设计的非常稀疏;:面向列(族)的存储和权限控制，列(族)独立检索;:Hbase中的数据都是字符串，没有类型。

2023-04-06 19:03:29 932

原创开窗函数应用 AVG()/SUM()/COUNT OVER() 根据不同范围定义进行数据操作

【代码】开窗函数应用 AVG()/SUM()/COUNT OVER() 根据不同范围定义进行数据操作。

2023-04-05 16:44:43 347

原创 CentOS-8 大数据环境部署(Hadoop-3.3.1 + Hive-3.1.2 + Zookeeper-3.7.0 + HBase-2.4.15)

CentOS-8 大数据环境部署(Hadoop-3.3.1 + Hive-3.1.2 + HBase-2.4.15)

2023-03-14 16:52:49 285

原创 mysql-connector-java的jar包下载地址 5.X/8.X

5版本 8版本对应 jar 包下载

2023-03-13 19:07:07 4431 1

原创 Spark SQL 从入门到精通 - Spark SQL 行转列、列转行案例

Spark PIOVT、UNPIOVT 方案案例

2022-06-29 17:01:44 2274

原创 mysql5.7实现mysql8.0的 rank() 函数

最近用的都是mysql8.0的数据库，知道有窗口函数这个好用的函数，但是业务库部分还在用mysql5.7，实现排名有点恶心，因版本问题不支持这些函数，所以写了如下SQL 实现此功能。SELECT D1,D2,D3,D4,ranks FROM(SELECT DISTINCT b.week_complain AS D1,b.WEEK_STR_CN AS D2, b.YEAR_STR AS D3,b.DATE_STR AS D4, -- 如果变量@ys的值等于YEAR_STR的值，且变量@wc的.

2022-04-21 16:00:05 2642 4

原创 Impala 查询时列类型为String 但报错为Double （Column type: STRING, Parquet schema: optional double ZXS）

解决方案一:在查询时添加此临时环境设置，检查schema 信息set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;解决方案二：根据Parquet 字段顺序重建Hive 表。问题原因：Hive 回自动匹配 Parquet 的列与schema 是否与建表顺序相同，而 Impala 默认只会根据顺序进行匹配，不会进行字段名称匹配，导致数据类型不一致。...

2021-09-03 14:25:35 1052

原创 Spark DSL各场景解决方案 - 汇总

1、DSL 字段数据类型转换。val session = SparkSession.builder() .appName(this.getClass.getSimpleName).master("local[2]") .getOrCreate()val nameRDD: RDD[String] = session.sparkContext.makeRDD(Array( """ |{"name":"zhangsan","age":"18"} """.stripM

2021-06-07 14:31:56 545

原创 windows环境netcat安装及使用 -解决方案

一、下载地址https://eternallybored.org/misc/netcat/二、安装步骤解压文件，并将文件中的 nc.exe复制到 C:\Windows\System32此目录下三、执行步骤# 开启两个黑窗口# 第一个执行nc -l -p 99999# 第二个执行nc localhost 99999四、异常处理异常提示：Can't grab 0.0.0.0:99999 with bind解决方案：端口冲突，更换端口即可正常运行...

2021-04-07 17:39:06 1407

原创 Spark从入门到精通 -Transformations与 Actions 算子

Transformationsmap(func) 、filter(func) 、flatMap(func)、mapPartitions(func)、mapPartitionsWithIndex(func)、sample(withReplacement, fraction, seed)、union(otherDataset)、intersection(otherDataset)、distinct([numPartitions]))、groupByKey([numPartitions])、reduceByKe

2021-04-06 15:27:08 109

原创 Linux Shell 解决方案 sed awk

#打印99乘法表seq 9 | sed ‘H;g’ | awk -v RS=’’ ‘{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}’

2021-04-01 16:38:52 107

原创 Hive 从入门到精通 - DQL 、DML、DDL、DCL 与各种操作类型对应解决方案 (四)

SQL(Structure Query Language)语言是数据库的核心语言。SQL语言共分为四大类：数据查询语言DQL(Data Query Language)，数据操纵语言DML(Data Manipulation Language)，数据定义语言DDL(Data Definition Language)，数据控制语言DCL(Data Control Language)。1、DQL 数据查询语言数据查询语言DQL基本结构是由SELECT(select)子句，FROM(from)子句，W

2021-03-29 11:27:59 245 1

原创 Hive中建表在Impala 中显示表不存在 -解决方案

执行invalidate metadata命令，更新impala 元数据信息，已解决。解决方案一：可以看下 Impala 启动参数是否有问题；解决方案二：查看Impala 配置是否配制了元数据检测同步。

2021-03-22 09:32:34 1073

原创 Spark SQL 从入门到精通 - Spark SQL内置函数 (一)

Spark SQL 内置函数详解Spark SQL 官方内置函数地址

2021-03-22 09:07:50 175

原创 Scala 从入门到精通 - 字符串插值解决方案

字符串插值：直接在过程字符串文字中嵌入变量引用的机制。只在Scala-2.10及更高版本支持。提供了三种字符串插值方式：s，f和raw。1、s 字符串插值器简单的说就是解析字符串变量。 val name = "Splicing" println(s"His name is $name") println(s"His name is ${name}my") println(s"66 + 88 = ${66+88}")2、f字符串插值器文字'f'插值器允许创建一个格式

2021-03-18 08:42:42 254

原创 Hive 从入门到精通 - 保留关键字与非保留关键字（三）

non-reserved keywordsadd, admin, after, analyze, archive, asc, before, bucket, buckets, cascade, change, cluster, clustered, clusterstatus, collection, columns, comment, compact, compactions, compute, concatenate, continue, data, databases, datetime, day,

2021-03-16 19:53:42 805

原创 Hive 从入门到精通 - Functions Application Tools (二)

1、数据比对函数!, !=, %, &, *, +, -, /, <, <=, <=>, <>, =, ==, >, >=, ^

2021-03-11 18:03:57 134

原创 JDBC 架构与查询性能调优（Statement、PreparedStatement）(CURD)

JDBC API 允许用户访问任何形式的表格数据，尤其是存储在关系数据库中的数据。执行流程：连接数据源，如：数据库。为数据库传递查询和更新指令。处理数据库响应并返回的结果。JDBC 架构分为双层架构和三层架构。1、双层架构作用：此架构中，Java Applet 或应用直接访问数据源。条件：要求 Driver 能与访问的数据库交互。机制：用户命令传给数据库或其他数据源，随之结果被返回。部署：数据源可以在另一台机器上，用户通过网络连接，称为 C/S配置（可以是内联网或互联网）.

2021-03-11 15:27:21 192

原创 Hive 从入门到精通 - CLI和Beeline命令行的基本使用与配置 ( 一 )

一、Hive CLI1、使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助。usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --定义用户自定义变量 --database <databas

2021-03-10 11:29:28 292

原创 Impala 从入门到精通技术方案一

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。优点1. Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。2. 省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（.

2021-03-03 17:08:12 226 1

原创 Kudu 从入门到精通 - 技术方案一

Apache Kudu是一个开源的分布式数据存储引擎，可以轻松快速地分析快速变化的数据。 1. 精简架构 Kudu提供了快速插入/更新和高效的列式扫描的组合，可在单个存储层上实现多个实时分析工作负载。 2. 更快的分析 Kudu专为需要对快速（快速变化的）数据进行快速分析的用例而设计。Kudu旨在利用下一代硬件和内存处理技术，显着降低了Apache Impala，Apache NiFi，Apache Spark，Apache Flink等引擎的查询延迟。 3. Apache Kudu由Apach

2021-03-03 16:33:24 248 2

原创 Hive SQL 解决方案 - 资产库_特殊季_特殊年

T-SQL逻辑查询的各个阶段(编号代表顺序)(5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate> (3)GROUP BY

2021-02-27 10:54:17 104

原创常用技术连接

Git :downloadhttps://gitee.com/progit/index.html

2021-02-07 16:31:42 108

原创微信小程序官网实现方案梳理

https://developers.weixin.qq.com/miniprogram/dev/framework/

2021-02-04 10:06:57 164

原创假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？ - Scala Version

题目【本质】就是解【裴波拉切】数/*给定 n 是一个正整数示例 1：输入： 2 输出： 2解释：有两种方法可以爬到楼顶。1. 1 阶 + 1 阶2. 2 阶示例 2：输入： 3 输出： 3解释：有三种方法可以爬到楼顶。1. 1 阶 + 1 阶 + 1 阶2. 1 阶 + 2 阶3. 2 阶 + 1 阶定义F(n)表示到达第n个台阶的方法，则F(n) = F(n - 1) +F(n - 2) */// 递归方法如下：// 4-1 + 4-2 = (

2021-01-16 22:07:05 1162

原创 Scala 从入门到精通 - 无main方法运行程序解决方案

本文章将介绍运行如何运行scala程序。在Java中，一个类要能独立运行，那么必须具有静态的main方法：如下public static void main(String[] args) { ... }Scala借鉴了这种模式。在Scala中，为了运行一个Scala程序，你必须定义一个Scala对象并定义一个main方法：object RunApp{ def main(args: Array[String]): Unit = { ... }}Scala中的Objec

2021-01-12 20:57:16 385

原创 Spark 自定义重分区 Scala 实现

Spark 自定义重分区import org.apache.spark.Partitionerclass MyPartition(numPartition: Int) extends Partitioner{ override def numPartitions: Int = numPartition override def getPartition(key: Any): Int = key match { case null => 0 case _ =>

2021-01-06 15:52:07 276

原创 Spark 算子详解，常用算子汇总

从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。从小方向来说，Spark 算子大致可以分为以下三类: 1）Value数据类型的Transformation算子　　 2）Key-Value数据类型的Transfromation算子 3）Action算子Map 类算子1、map、flatMap、map

2021-01-04 15:05:23 1192

原创 Topic 常用操作命令 - Kafka

Topic Tools Pagehttps://cwiki.apache.org/confluence/display/KAFKA/Replication+toolsKafka has four core APIs: Producer API、Consumer API、 Streams API、Connector API

2020-12-31 10:18:50 748

原创 Flink 知识点汇总

数据产生的越来越快、数据量越来越大，数据的来源越来越千变万化，数据中隐藏的价值规律更是越来越被重视！为什么选择Flink主要原因1.Flink 具备统一的框架处理有界和无界两种数据流的能力2.部署灵活，Flink 底层支持多种资源调度器，包括Yarn、Kubernetes 等。Flink 自身带的Standalone 的调度器，在部署上也十分灵活。3.极高的可伸缩性，可伸缩性对于分布式系统十分重要，阿里巴巴双11大屏采用Flink 处理海量数据，使用过程中测得Flink 峰值可达17 亿条/秒。

2020-12-21 00:08:36 164

原创 Kafka Producer 生产者 API

val props = new Properties() props.put("bootstrap.servers", "localhost:9092") props.put("acks", "all") props.put("retries", 0) props.put("batch.size", 16384) props.put("linger.ms", 1) props.put("buffer.memory", 33554432) props.p

2020-12-15 01:38:35 109

原创 Scala 知识汇总（knowledge Pooling）

1、++ 该方法用于连接两个集合var mapList = Map.empty[String, Long] mapList += "zho1" -> 1L mapList += "zho2" -> 2L mapList += "zho3" -> 3Lreturn => Map(zho1 -> 1, zho2 -> 2, zho3 -> 3)val ee1 = l.map(line => { mapList }

2020-12-14 00:08:42 153

原创 spark-shell操作HBase get、put and Return

各算子异常问题记录1、当过滤器为元素为空时，无法过滤出数据，需加流程控制 filterList.filterRow() 返回true 则表示filter 不存在元素，返回false 则表示filter 存在元素2、对 Result 结果集数据操作时：要预防空指针操作，采用 Result.advance() 流程控制，数据存在则返回true,数据不存在则返回false3、对 Result 结果集数据操作时： result.getValue(familyName, Qualifier

2020-12-13 23:45:26 336

原创 spark streaming整合Kafka 实战 Direct

package com.zholei.kafkaprjimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.rdd.RDDimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamimpo

2020-12-13 23:36:20 166

原创 Spark SQL 算子详解

1、.show()show(numRows: Int) -- 显示numRows条show(truncate: Boolean) -- 是否最多只显示20个字符，默认为trueshow(numRows: Int, truncate: Boolean) --综合前面的显示记录条数，以及对过长字符串的显示格式2、first, head, take, takeAsList：获取若干行记录这里列出的四个方法比较类似，其中　　（1）first获取第一行记录　　（2）head获取第

2020-11-05 18:12:52 1089

原创 Spark SQL函数对比 Oracle SQL函数备忘录

0、逻辑查询的各个阶段执行顺序T-SQL逻辑查询的各个阶段(编号代表顺序)(5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate&

2020-11-05 17:07:24 673

SAP IPS Data Service 安装和配置

配套资源 github : spark-data-transmission 项目

配套资源 github : spark-data-transmission 项目

空空如也