自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (3)
  • 收藏
  • 关注

原创 浏览器连不上 Flink WebUI 8081 端口

【代码】浏览器连不上 Flink WebUI 8081 端口。

2023-09-01 15:12:41 1745

原创 Mac 卸载 PyCharm 方法

① 删除 PyCharm 程序本身,如果没有安装多个版本,如下命令即可。② 也可以在界面的应用程序里找到 PyCharm 文件右键并删除。删除 PyCharm 指定版本应用数据及插件数据等等。根据自身电脑而定,一般此目录下只存在一个一个文件。删除 PyCharm 指定版本运行时,产生的日志。删除 PyCharm 指定版本相关的偏好设置。删除 PyCharm 指定版本相关的缓存数据。应用程序的诊断日志都放在。类似的文件然后再递归查找。

2023-08-30 15:46:30 3398 1

原创 Mac 卸载 IntelliJ IDEA 方法

直接复制上面的命令,粘贴在命令终端即可,最后一个命令需要回车一下。删除 IDEA 程序本身,如果没有安装多个版本,如下命令即可。删除 IDEA 指定版本应用数据及插件数据等等。删除 IDEA 指定版本运行时,产生的日志。删除 IDEA 指定版本相关的偏好设置。删除 IDEA 指定版本相关的缓存数据。删除当前用户下的其他相关文件。应用程序的诊断日志都放在。

2023-08-04 15:20:45 7869

原创 DataX 异构数据贴源同步产品 - 技术分享篇(一)

DataX 是阿里开源的一个异构数据源离线同步工具。

2023-08-02 16:54:39 297

原创 HBase应用场景、原理与基本架构

表中每条记录的“主键”,方便快速查找,每一行的rowkey必须是唯一的,无需以递增的顺序插入.Column Family。:每行都有一个可排序的主键和任意多的列,列可以 根据需要动态的增加,同一张表中不同的行可以有截然不同的 列;:每个单元中的数据可以有多个版本,默认情况 下版本号自动分配,是单元格插入时的时间戳;:对于空(null)的列,并不占用存储空间,表可以设计 的非常稀疏;:面向列(族)的存储和权限控制,列(族)独立检 索;:Hbase中的数据都是字符串,没有类型。

2023-04-06 19:03:29 911

原创 开窗函数应用 AVG()/SUM()/COUNT OVER() 根据不同范围定义进行数据操作

【代码】开窗函数应用 AVG()/SUM()/COUNT OVER() 根据不同范围定义进行数据操作。

2023-04-05 16:44:43 298

原创 CentOS-8 大数据环境部署(Hadoop-3.3.1 + Hive-3.1.2 + Zookeeper-3.7.0 + HBase-2.4.15)

CentOS-8 大数据环境部署(Hadoop-3.3.1 + Hive-3.1.2 + HBase-2.4.15)

2023-03-14 16:52:49 264

原创 mysql-connector-java的jar包下载地址 5.X/8.X

5版本 8版本 对应 jar 包下载

2023-03-13 19:07:07 4250 1

原创 Spark SQL 从入门到精通 - Spark SQL 行转列、列转行案例

Spark PIOVT、UNPIOVT 方案案例

2022-06-29 17:01:44 2230

原创 mysql5.7实现mysql8.0的 rank() 函数

最近用的都是mysql8.0的数据库,知道有窗口函数这个好用的函数,但是业务库部分还在用mysql5.7,实现排名有点恶心,因版本问题不支持这些函数,所以写了如下SQL 实现此功能。SELECT D1,D2,D3,D4,ranks FROM(SELECT DISTINCT b.week_complain AS D1,b.WEEK_STR_CN AS D2, b.YEAR_STR AS D3,b.DATE_STR AS D4, -- 如果变量@ys的值等于YEAR_STR的值,且变量@wc的.

2022-04-21 16:00:05 2555 4

原创 Impala 查询时 列类型为String 但报错为Double (Column type: STRING, Parquet schema: optional double ZXS)

解决方案一:在查询时 添加此 临时环境设置,检查schema 信息set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;解决方案二:根据Parquet 字段顺序 重建Hive 表。问题原因:Hive 回自动匹配 Parquet 的列与schema 是否与建表顺序相同,而 Impala 默认只会 根据顺序进行匹配,不会进行 字段名称匹配,导致数据类型不一致。...

2021-09-03 14:25:35 1022

原创 Spark DSL各场景解决方案 - 汇总

1、DSL 字段数据类型转换。val session = SparkSession.builder() .appName(this.getClass.getSimpleName).master("local[2]") .getOrCreate()val nameRDD: RDD[String] = session.sparkContext.makeRDD(Array( """ |{"name":"zhangsan","age":"18"} """.stripM

2021-06-07 14:31:56 529

原创 windows环境netcat安装及使用 -解决方案

一、下载地址https://eternallybored.org/misc/netcat/二、安装步骤解压文件,并将文件中的 nc.exe复制到 C:\Windows\System32此目录下三、执行步骤# 开启两个黑窗口# 第一个执行nc -l -p 99999# 第二个执行nc localhost 99999四、异常处理异常提示 :Can't grab 0.0.0.0:99999 with bind解决方案: 端口冲突,更换端口即可正常运行...

2021-04-07 17:39:06 1369

原创 Spark从入门到精通 -Transformations与 Actions 算子

Transformationsmap(func) 、filter(func) 、flatMap(func)、mapPartitions(func)、mapPartitionsWithIndex(func)、sample(withReplacement, fraction, seed)、union(otherDataset)、intersection(otherDataset)、distinct([numPartitions]))、groupByKey([numPartitions])、reduceByKe

2021-04-06 15:27:08 101

原创 Linux Shell 解决方案 sed awk

#打印99乘法表seq 9 | sed ‘H;g’ | awk -v RS=’’ ‘{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}’

2021-04-01 16:38:52 98

原创 Hive 从入门到精通 - DQL 、DML、DDL、DCL 与 各种操作类型对应解决方案 (四)

SQL(Structure Query Language)语言是数据库的核心语言。SQL语言共分为四大类:数据查询语言DQL(Data Query Language),数据操纵语言DML(Data Manipulation Language),数据定义语言DDL(Data Definition Language),数据控制语言DCL(Data Control Language)。1、DQL 数据查询语言数据查询语言DQL基本结构是由SELECT(select)子句,FROM(from)子句,W

2021-03-29 11:27:59 222 1

原创 Hive中建表 在Impala 中显示 表不存在 -解决方案

执行invalidate metadata命令,更新impala 元数据信息,已解决。解决方案一:可以看下 Impala 启动 参数是否有问题;解决方案二:查看Impala 配置是否配制了 元数据检测同步。

2021-03-22 09:32:34 1057

原创 Spark SQL 从入门到精通 - Spark SQL内置函数 (一)

Spark SQL 内置函数详解Spark SQL 官方内置函数 地址

2021-03-22 09:07:50 169

原创 Scala 从入门到精通 - 字符串插值 解决方案

字符串插值:直接在过程字符串文字中嵌入变量引用的机制。只在Scala-2.10及更高版本支持。提供了三种字符串插值方式:s,f和raw。1、s 字符串插值器 简单的说就是解析字符串变量。 val name = "Splicing" println(s"His name is $name") println(s"His name is ${name}my") println(s"66 + 88 = ${66+88}")2、f字符串插值器文字'f'插值器允许创建一个格式

2021-03-18 08:42:42 245

原创 Hive 从入门到精通 - 保留关键字与非保留关键字 (三)

non-reserved keywordsadd, admin, after, analyze, archive, asc, before, bucket, buckets, cascade, change, cluster, clustered, clusterstatus, collection, columns, comment, compact, compactions, compute, concatenate, continue, data, databases, datetime, day,

2021-03-16 19:53:42 782

原创 Hive 从入门到精通 - Functions Application Tools (二)

1、数据比对函数!, !=, %, &, *, +, -, /, <, <=, <=>, <>, =, ==, >, >=, ^

2021-03-11 18:03:57 131

原创 JDBC 架构 与 查询性能调优(Statement、PreparedStatement)(CURD)

JDBC API 允许用户访问任何形式的表格数据,尤其是存储在关系数据库中的数据。执行流程:连接数据源,如:数据库。为数据库传递查询和更新指令。处理数据库响应并返回的结果。JDBC 架构分为双层架构和三层架构。1、双层架构作用:此架构中,Java Applet 或应用直接访问数据源。条件:要求 Driver 能与访问的数据库交互。机制:用户命令传给数据库或其他数据源,随之结果被返回。部署:数据源可以在另一台机器上,用户通过网络连接,称为 C/S配置(可以是内联网或互联网).

2021-03-11 15:27:21 186

原创 Hive 从入门到精通 - CLI和Beeline命令行的基本使用 与 配置 ( 一 )

一、Hive CLI1、使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助。usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --定义用户自定义变量 --database <databas

2021-03-10 11:29:28 267

原创 Impala 从入门到精通 技术方案一

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。优点1. Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。2. 省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(.

2021-03-03 17:08:12 205 1

原创 Kudu 从入门到精通 - 技术方案一

Apache Kudu是一个开源的分布式数据存储引擎,可以轻松快速地分析快速变化的数据。 1. 精简架构 Kudu提供了快速插入/更新和高效的列式扫描的组合,可在单个存储层上实现多个实时分析工作负载。 2. 更快的分析 Kudu专为需要对快速(快速变化的)数据进行快速分析的用例而设计。Kudu旨在利用下一代硬件和内存处理技术,显着降低了Apache Impala,Apache NiFi,Apache Spark,Apache Flink等引擎的查询延迟。 3. Apache Kudu由Apach

2021-03-03 16:33:24 228 2

原创 Hive SQL 解决方案 - 资产库_特殊季_特殊年

T-SQL逻辑查询的各个阶段(编号代表顺序)(5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate> (3)GROUP BY

2021-02-27 10:54:17 95

原创 常用技术连接

Git :downloadhttps://gitee.com/progit/index.html

2021-02-07 16:31:42 104

原创 微信小程序 官网 实现方案梳理

https://developers.weixin.qq.com/miniprogram/dev/framework/

2021-02-04 10:06:57 155

原创 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? - Scala Version

题目【本质】就是解【裴波拉切】数/*给定 n 是一个正整数示例 1:输入: 2 输出: 2解释: 有两种方法可以爬到楼顶。1. 1 阶 + 1 阶2. 2 阶示例 2:输入: 3 输出: 3解释: 有三种方法可以爬到楼顶。1. 1 阶 + 1 阶 + 1 阶2. 1 阶 + 2 阶3. 2 阶 + 1 阶定义F(n)表示到达第n个台阶的方法,则F(n) = F(n - 1) +F(n - 2) */// 递归方法如下:// 4-1 + 4-2 = (

2021-01-16 22:07:05 1123

原创 Scala 从入门到精通 - 无main方法运行程序 解决方案

本文章将介绍运行如何运行scala程序。在Java中,一个类要能独立运行,那么必须具有静态的main方法:如下public static void main(String[] args) { ... }Scala借鉴了这种模式。在Scala中,为了运行一个Scala程序,你必须定义一个Scala对象并定义一个main方法:object RunApp{ def main(args: Array[String]): Unit = { ... }}Scala中的Objec

2021-01-12 20:57:16 370

原创 Spark 自定义 重分区 Scala 实现

Spark 自定义 重分区import org.apache.spark.Partitionerclass MyPartition(numPartition: Int) extends Partitioner{ override def numPartitions: Int = numPartition override def getPartition(key: Any): Int = key match { case null => 0 case _ =>

2021-01-06 15:52:07 261

原创 Spark 算子详解,常用算子汇总

从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。从小方向来说,Spark 算子大致可以分为以下三类: 1)Value数据类型的Transformation算子   2)Key-Value数据类型的Transfromation算子 3)Action算子Map 类算子1、map、flatMap、map

2021-01-04 15:05:23 1175

原创 Topic 常用操作命令 - Kafka

Topic Tools Pagehttps://cwiki.apache.org/confluence/display/KAFKA/Replication+toolsKafka has four core APIs: Producer API、Consumer API、 Streams API、Connector API

2020-12-31 10:18:50 735

原创 Flink 知识点汇总

数据产生的越来越快、数据量越来越大,数据的来源越来越千变万化,数据中隐藏的价值规律更是越来越被重视!为什么选择Flink主要原因1.Flink 具备统一的框架处理有界和无界两种数据流的能力2.部署灵活,Flink 底层支持多种资源调度器,包括Yarn、Kubernetes 等。Flink 自身带的Standalone 的调度器,在部署上也十分灵活。3.极高的可伸缩性,可伸缩性对于分布式系统十分重要,阿里巴巴双11大屏采用Flink 处理海量数据,使用过程中测得Flink 峰值可达17 亿条/秒。

2020-12-21 00:08:36 157

原创 Kafka Producer 生产者 API

val props = new Properties() props.put("bootstrap.servers", "localhost:9092") props.put("acks", "all") props.put("retries", 0) props.put("batch.size", 16384) props.put("linger.ms", 1) props.put("buffer.memory", 33554432) props.p

2020-12-15 01:38:35 104

原创 Scala 知识汇总(knowledge Pooling)

1、++ 该方法用于连接两个集合var mapList = Map.empty[String, Long] mapList += "zho1" -> 1L mapList += "zho2" -> 2L mapList += "zho3" -> 3Lreturn => Map(zho1 -> 1, zho2 -> 2, zho3 -> 3)val ee1 = l.map(line => { mapList }

2020-12-14 00:08:42 147

原创 spark-shell操作HBase get、put and Return

各算子异常问题记录1、当过滤器为元素为空时,无法过滤出数据,需加流程控制 filterList.filterRow() 返回true 则表示filter 不存在元素,返回false 则表示filter 存在元素2、对 Result 结果集数据操作时: 要预防空指针操作,采用 Result.advance() 流程控制,数据存在则返回true,数据不存在则返回false3、对 Result 结果集数据操作时: result.getValue(familyName, Qualifier

2020-12-13 23:45:26 323

原创 spark streaming整合Kafka 实战 Direct

package com.zholei.kafkaprjimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.rdd.RDDimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamimpo

2020-12-13 23:36:20 157

原创 Spark SQL 算子详解

1、.show()show(numRows: Int) -- 显示numRows条show(truncate: Boolean) -- 是否最多只显示20个字符,默认为trueshow(numRows: Int, truncate: Boolean) --综合前面的显示记录条数,以及对过长字符串的显示格式2、first, head, take, takeAsList:获取若干行记录这里列出的四个方法比较类似,其中   (1)first获取第一行记录   (2)head获取第

2020-11-05 18:12:52 1072

原创 Spark SQL函数 对比 Oracle SQL函数 备忘录

0、逻辑查询的各个阶段 执行顺序T-SQL逻辑查询的各个阶段(编号代表顺序)(5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate&

2020-11-05 17:07:24 656

SAP IPS Data Service 安装和配置

SAP IPS Data Service 安装和配置,Linux版本,基于默认数据库。

2022-06-16

配套资源 github : spark-data-transmission 项目

ImplaJDBC , 用于 Impala客户端链接代码。

2022-06-13

配套资源 github : spark-data-transmission 项目

GP_connector jar 包

2022-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除