@SmartSi
码龄9年
  • 2,682,924
    被访问
  • 668
    原创
  • 287
    排名
  • 1,464
    粉丝
关注
提问 私信

个人简介:Stay Hungry, Stay Foolish

  • 加入CSDN时间: 2013-02-21
博客简介:

SmartSi

博客描述:
一起陪伴大数据成长
查看详细资料
  • 4
    领奖
    总分 762 当月 103
个人成就
  • 博客专家认证
  • 获得970次点赞
  • 内容获得271次评论
  • 获得874次收藏
创作历程
  • 42篇
    2022年
  • 10篇
    2021年
  • 6篇
    2018年
  • 90篇
    2017年
  • 150篇
    2016年
  • 779篇
    2015年
  • 644篇
    2014年
  • 194篇
    2013年
成就勋章
TA的专栏
  • Flink
    付费
    42篇
  • Kafka
    付费
    11篇
  • Hudi
    付费
    1篇
  • Spark
    付费
    13篇
  • Elasticsearch
    付费
    24篇
  • ZooKeeper
    2篇
  • Hive
    18篇
  • Hadoop
    27篇
  • Debezium
    1篇
  • 数据集成
    2篇
  • Stream
    1篇
  • Paper
    1篇
  • HBase
    1篇
  • Presto
    2篇
  • Zeppelin
    2篇
  • Redis
    5篇
  • CDC
    1篇
  • ElasticSearch日记
    19篇
  • Docker
    3篇
  • MongoDB
    4篇
  • Kylin
    1篇
  • Big-Data
    22篇
  • Flume
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
  • 数据库管理
    数据仓库
精品文选
精品文选
  • Java开发之路汇总
  • Spring实战系列
  • Maven实战
  • 算法精品文选
  • LeetCode解题报告
  • 笔试面试题精选
  • 华为机试练习题汇总

  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink Table API & SQL 自定义 Table 表函数

1. 什么是表函数Table Function 也称为表值函数,将 0 个、1 个或者多个标量值作为输入参数(可以是变长参数)。与自定义的标量函数类似,但与标量函数不同。表值函数可以返回任意数量的行(结构化类型)作为输出,而不仅仅是 1 个值。返回的行可以由 1 个或多个字段组成。如果返回的行仅包含一个字段,那么可以不用结构化记录,而是输出一个标量值,该值在运行时隐式包装成一行。调用一次函数输出多行、多列的数据,从形式上更像是输出了一个表 Table,所以表函数可以认为就是返回一个表的函数,这是一个’一对
原创
发布博客 6 小时前 ·
5 阅读 ·
0 点赞 ·
0 评论

Flink Table API & SQL 自定义 Scalar 标量函数

1. 什么是标量函数Scalar Function 也被称为标量函数,将 0 个、1个或多个标量值映射为一个新的标量值。输入与输出是一对一的关系,即读入一行数据,写出一条输出值。在自定义标量函数时,用户需要确认 Flink 内部是否已经实现相应的标量函数,如果已经实现则可以直接使用;如果没有实现,那么在注册自定义函数过程中,需要和内置的其他标量名称区分开,否则会导致注册函数失败,影响应用的正常执行。Flink 常见的内置标量函数有 DATE()、UPPER()、LTRIM() 等。2. 定义标量函数定
原创
发布博客 前天 22:55 ·
52 阅读 ·
0 点赞 ·
0 评论

Redis 如何使用 Bitmap

1. Bitmap 是什么Bitmap(也称为位数组或者位向量等)是一种实现对位的操作的’数据结构’,在数据结构加引号主要因为:Bitmap 本身不是一种数据结构,底层实际上是字符串,可以借助字符串进行位操作。Bitmap 单独提供了一套命令,所以与使用字符串的方法不太相同。可以把 Bitmaps 想象成一个以位为单位的数组,数组的每个单元只能存储 0 和 1,数组的下标在 Bitmap 中叫做偏移量 offset。2. 占用存储空间如上我们知道 Bitmap 本身不是一种数据结构,底层实际上
原创
发布博客 2022.05.15 ·
32 阅读 ·
0 点赞 ·
0 评论

Redis 如何使用 HyperLogLog

1. 概述Redis 在 2.8.9 版本添加了 HyperLogLog 数据结构,用来做基数统计,其优点是在输入元素的数量非常大时,计算基数所需的空间比较小并且一般比较恒定。在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存就可以计算接近 2^64 个不同元素的基数。这和计算基数时,元素越多耗费内存越多的集合形成鲜明对比。但是,因为 HyperLogLog 只会根据输入元素来计算基数,并不会储存输入元素本身,所以 HyperLogLog 不能像集合那样能返回输入的各个元
原创
发布博客 2022.05.14 ·
52 阅读 ·
0 点赞 ·
0 评论

Flink 本地运行 Web UI

我们运行 Flink 任务,一般都是提交到集群中运行,这样可以看到作业的的执行计划、占用资源、反压、Checkpoint 等信息。但是这样我们必须先将程序打成 jar 包,然后通过 Web 页面或命令行提交到集群中运行。但是在开发测试阶段,每一次都需要将作业打包并提交到集群中运行,这样很麻烦。很多时候,我们希望在 IDE 中编写 Flink 代码运行,能够直接看到 Web UI,从而来了解 Flink 程序的运行情况。Flink 为我们解决了这个问题,我们只需要引入 Flink Web UI 的依赖即可:
原创
发布博客 2022.05.12 ·
105 阅读 ·
0 点赞 ·
0 评论

Flink No appenders could be found for logger

1. 现象在本地 idea 上运行 Flink 程序时,提示如下告警,同时也不会输出日志:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/Users/wy/.m2/repository/org/slf4j/slf4j-log4j12/1.7.10/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
原创
发布博客 2022.05.12 ·
170 阅读 ·
0 点赞 ·
0 评论

Flink SQL ClassNotFoundException: org.apache.commons.compress.compressors.zstandard.ZstdCompressorIn

1. 现象在 Flink SQL 中使用 FileSystem Connector 以 CSV 格式读取本地 csv 文件时,抛出如下异常:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/compress/compressors/zstandard/ZstdCompressorInputStream at org.apache.flink.api.common.io.FileInputForma
原创
发布博客 2022.05.11 ·
202 阅读 ·
0 点赞 ·
0 评论

CMAK requirement failed: No jmx port but jmx polling enabled

1. 现象我们在启动 CMAK 时,抛出如下异常:2022-05-09 23:36:45,478 - [ERROR] - from kafka.manager.jmx.KafkaJMX$ in pool-13-thread-2Failed to connect to service:jmx:rmi:///jndi/rmi://127.0.0.1:-1/jmxrmijava.lang.IllegalArgumentException: requirement failed: No jmx port b
原创
发布博客 2022.05.10 ·
49 阅读 ·
0 点赞 ·
0 评论

Kafka 监控工具之 CMAK

1. 概述CMAK(Cluster Manager for Apache Kafka) 是由 Yahoo 开源的 Kafka 集群管理平台。我们可能听到更多的是 kafka-manager。主要是因为误用了 Apache 的商标,所以才从 kafka-manager 改名为 CMAK。在 3.0.0.2 版本之前,kafka-manager 是不提供现成的编译包的,需要我们自己编译打包,老版本的安装可以参阅博文 Kafka 监控工具之Kafka Manager。在 3.0.0.2 版本之后我们可以直接下
原创
发布博客 2022.05.10 ·
51 阅读 ·
0 点赞 ·
0 评论

Kafka 监控工具之 Kafka Manager

1. 安装Kafka如果你还没有安装 Kafka 可以参考博文Kafka 安装与启动进行安装。2. Kafka Manager简介Kafka Manager 是一个用于管理 Apache Kafka 的工具。其提供了如下功能:管理多个集群。轻松检查群集状态(Topic,消费者,偏移量,Broker,副本分发,分区分发)。运行首选副本选举。使用选项生成分区分配以选择要使用的 Broker。分区重新分配。使用可选 Topic 配置创建主题(0.8.1.1版本与0.8.2+版本配置不同)。删
原创
发布博客 2022.05.10 ·
56 阅读 ·
0 点赞 ·
0 评论

Kafka 安装与启动

1. 下载代码下载 2.3.0 版本并解压缩:tar -zxvf kafka_2.12-2.3.0.tgz -C .创建软连接便于升级:ln -s kafka_2.12-2.3.0/ kafka配置环境变量:# Kafkaexport KAFKA_HOME=/opt/kafkaexport PATH=${KAFKA_HOME}/bin:$PATH2. 安装ZooKeeperKafka 依赖 ZooKeeper,如果你还没有 ZooKeeper 服务器,你需要先启动一个 ZooKee
原创
发布博客 2022.05.10 ·
53 阅读 ·
0 点赞 ·
0 评论

ZooKeeper 伪集群模式安装与启动

1. 安装要在你的计算机上安装 ZooKeeper 框架,请访问该链接并下载最新版本的ZooKeeper。到目前为止,最新稳定版本的 ZooKeeper是3.4.12(ZooKeeper-3.4.12.tar.gz)。使用以下命令提取tar文件:cd ~/opt/$ tar -zxf zookeeper-3.4.12.tar.gz创建软连接,便于升级:$ sudo ln -s zookeeper-3.4.12/ zookeeper创建数据目录:$ cd zookeeper$ mkdi
原创
发布博客 2022.05.10 ·
53 阅读 ·
0 点赞 ·
0 评论

ZooKeeper 集群模式安装与启动

1. 安装要在你的计算机上安装 ZooKeeper 框架,请访问该链接并下载最新版本的ZooKeeper。到目前为止,最新稳定版本的 ZooKeeper是3.4.12(ZooKeeper-3.4.12.tar.gz)。使用以下命令提取tar文件:cd ~/opt/$ tar -zxf zookeeper-3.4.12.tar.gz创建软连接,便于升级:$ sudo ln -s zookeeper-3.4.12/ zookeeper创建数据目录:$ cd zookeeper$ mkdi
原创
发布博客 2022.05.10 ·
53 阅读 ·
0 点赞 ·
0 评论

JVM 类加载器与双亲委派模型

1. 类加载器我们知道,虚拟机在加载类的过程中需要使用类加载器进行加载,而在 Java 中,类加载器有很多,那么当 JVM 想要加载一个 .class 文件的时候,到底应该由哪个类加载器加载呢?这时候就需要双亲委派机制来告诉 JVM 使用哪个类加载器加载。在讲解什么是双亲委派机制之前,我们先看一下有哪些加载器。从 Java 虚拟机的角度来讲,只存在两种不同的类加载器:一种是启动类加载器 Bootstrap ClassLoader,这个类加载器使用 C++ 语言实现,是虚拟机自身的一部分;另一种就是所有其
原创
发布博客 2022.05.08 ·
113 阅读 ·
0 点赞 ·
1 评论

Flink Table API & SQL 类型系统 DataType

Flink 版本:1.13.5由于历史原因,在 Flink 1.9 之前,Flink 的 Table API & SQL 数据类型与 Flink 的 TypeInformation 紧密耦合。TypeInformation 主要用于 DataStream 和 DataSet API 中,为系统序列化和反序列化基于 JVM 的对象提供必要的信息。但是,TypeInformation 原本的设计目的并不能表示不同实际 JVM 类的逻辑类型。因此 SQL 的标准类型很难与这种抽象进行映射。此外,某.
原创
发布博客 2022.05.03 ·
733 阅读 ·
0 点赞 ·
0 评论

DataX 快速入门

DataX 版本:3.0Github主页地址:https://github.com/alibaba/DataXDataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。具体请查阅:DataX 异构数据源离线同步1. 环境要求LinuxJDK(1.8 以上,推荐 1.8)Python(推荐 Python2.6.X)2. 下载直接下载 DataX 工.
原创
发布博客 2022.04.30 ·
321 阅读 ·
0 点赞 ·
0 评论

Flink SQL 客户端如何使用

Flink 版本 1.13.0Flink 的 Table & SQL API 可以处理 SQL 语言编写的查询语句,但是这些查询需要嵌入用 Java 或 Scala 编写的 Table 程序中。此外,这些程序在提交到集群前需要用构建工具打包。这或多或少限制了 Java/Scala 程序员对 Flink 的使用。SQL 客户端的目的是提供一种简单的方式来编写、调试和提交表程序到 Flink 集群上,不需写 Java 或 Scala 代码。SQL 客户端命令行界面(CLI) 能够在命令行中检索和.
原创
发布博客 2022.04.27 ·
2082 阅读 ·
0 点赞 ·
0 评论

Hive 元数据服务 MetaStore

1. 概念MetaSore 是 Hive 元数据存储的地方。Hive 数据库、表、函数等的定义都存储在 MetaStore 中。根据系统配置方式,统计信息和授权记录也可以存储在这。Hive 或者其他执行引擎在运行时可以使用这些数据来确定如何解析,授权以及有效执行用户的查询。MetaStore 分为两个部分:服务和后台数据的存储。2. 配置参数这里只会展示与 MetaStore 相关的配置参数,与 MetaSote 不相关的配置参数可以在这查阅。配置参数参数说明hive.metas
原创
发布博客 2022.04.26 ·
2044 阅读 ·
0 点赞 ·
0 评论

Flink DataStream 类型系统 TypeInformation

Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处理这些对象。当通过网络传输或者读写状态后端、检查点以及保存点时,需要对它们进行序列化和反序列化。为了能够更高效的做到这一点,Flink 需要详细了解应用程序处理的数据类型。Flink 使用类型信息的概念来表示数据类型,并为每种数据类型生成特定的序列化器、反序列化器以及比较器。此外,Flink 还有一个类型提取系统,可以分析函数的输入和返回类型来自动
原创
发布博客 2022.04.21 ·
1740 阅读 ·
0 点赞 ·
0 评论

Debezium 1.9.0.Final 正式发布

我很高兴宣布 Debezium 1.9.0.Final 正式发布!除了修复一系列 Bug 以及优化之外,此版本的主要功能还包括:提供对 Apache Cassandra 4 的支持提供对 SQL Server 的 Debezium Connector 的多数据库支持提供将 Debezium Server 作为 Knative 事件源的能力对 Debezium Server 与 Redis Streams 集成的诸多优化此外,社区已经为 1.9 版本修复了 276 个 issue;1. 对 A
原创
发布博客 2022.04.16 ·
1552 阅读 ·
0 点赞 ·
0 评论
加载更多