- 博客(922)
- 资源 (17)
- 收藏
- 关注
原创 VirtualBox虚拟机设置双网卡:内网固定IP方便内部使用、外网DHCP方便上网
1. 管理->主机网络管理器网卡设置:DHCP服务器设置:2. 选定已创建的虚拟主机,设置->网络网卡1设置为:仅主机网卡2设置为: 桥接网络3.主机启动,修改网卡配置4.查看效果...
2023-08-13 18:18:00 1221
原创 Ambari 服务配置以及 Alert 详解
Ambari Alert(告警)简介Ambari 告警的基础概念Ambari 为了帮助用户鉴别以及定位集群的问题,实现了告警(Alert)机制。在 Ambari 中预定了很多的告警,这些告警被用于监测集群的各个模块以及机器的状态。对于告警来说,主要有两个概念,一个是 Alert Definition,一个是 Alert Instance。顾名思义,Alert Definition 就是告警的...
2023-03-29 16:46:00 322
原创 解决go get无法下载依赖的问题
推荐使用的go版本为1.13及以上版本,声明环境变量go env -w GO111MODULE=ongo env -w GOPROXY=https://goproxy.io,direct#设置不用proxy的私有仓库,多用逗号相隔(可选)go env -w GOPRIVATE=*.corp.example.com下面可以进行下载安装依赖,比如:go get github.c...
2023-03-28 20:56:00 313
原创 Centos7.3离线(tar方式)安装mysql服务
1. 官网下载压缩包https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.40-el7-x86_64.tar.gz2.卸载系统自带的Mariadbrpm -qa|grep mariadbrpm -e --nodeps mariadb-libs-5.5.44-2.el7.centos.x86_643.创建mys...
2023-03-04 09:52:00 155
原创 一文读懂Kafka Connect核心概念
概览Kafka Connect 是一种用于在 Apache Kafka 和其他系统之间可扩展且可靠地流式传输数据的工具。 它使快速定义将大量数据移入和移出 Kafka 的连接器变得简单。 Kafka Connect 可以摄取整个数据库或从所有应用程序服务器收集指标到 Kafka 主题中,使数据可用于低延迟的流处理。 导出作业可以将数据从 Kafka 主题传送到二级存储和查询系统或批处理系统进行...
2023-02-24 14:59:00 151
原创 JS登录密码基于token和CryptoJS加密处理方法
1.登录前先请求,获取一个token,也可以在本地写死暂且叫登录token,用来给登录时密码的加密async getToken(){ const {data:token} = await getToken() // token : eaaaaaaaaaIUzI1NiJ9.eyJ1aWQiOiJDRTY3,例如这样的 this.token = toke...
2022-11-17 20:38:00 107
原创 JavaScript字符串MD5
进行HTTP网络通信的时候,调用API向服务器请求数据,有时为了防止API调用过程中被黑客恶意篡改,所请求参数需要进行MD5算法计算,得到摘要签名。服务端会根据请求参数,对签名进行验证,签名不合法的请求将会被拒绝。但是目前原生JS貌似并没有提供MD5计算相关的函数方法,只能自己实现或者使用前辈大神写好的。网上找了下,找到了这个MD5的javaScript实现https://www.bootc...
2022-11-17 20:33:00 211
原创 js-cookie 设置过期时间
我们用js-cookie这款插件来设置cookie,比较方便,可以自行查看文档。js-cookie 的示例中只有以天为单位的有效期:Cookies.set('name', 'value', { expires: 7 }); // 7 天后失效官方文档只要设置天数,没有时分秒,这样我们想设置更小单位的时候无法下手,其实也可以设置时间戳来处理时间的,下面这种方式可以设置任意单位的有效期:...
2022-11-17 20:31:00 792
原创 一文带你彻底搞懂Cookie、Session和Token
在学习Cookie、Session和Token之前,我们先了解下HTTP的无状态协议。1、HTTP的无状态协议HTTP无状态协议是指该协议对事件的处理过程没有记忆能力,当后续的步骤需要上一步的信息时,则需要重传,即需要携带上一次的信息。因此,对于存在依赖性的访问请求,则下一次的传递需要携带上一次传递的信息,依次不断的叠加,会导致传输的信息量会越来越大,服务器响应较慢。HTTP无状态访问...
2022-11-12 16:04:00 86
原创 flink 项目打包成jar包使用java -jar运行异常
java -jar错误信息如下:Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSHOT-jar-with-dependencies.jar!/reference.conf: 87...
2022-11-04 21:45:00 145
原创 Flink SQL UNNEST/UDTF 如何实现列转行?
在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例.需求:原始数据格式如下name dataJasonLee [{"content_type":"flink","url":"111"},{"content_type":"spark","url":"222"},{"content_t...
2022-11-01 09:17:00 628
原创 Apache Flink 流计算基准测试框架
每一种引擎有其优势的地方,如何选择适合自己业务的流计算引擎成了一个由来已久的话题。除了比较各个引擎提供的不同的功能矩阵之外,性能是一个无法绕开的评估因素。基准测试(benchmark)就是用来评估系统性能的一个重要和常见的过程。01 背景随着数据时效性对企业的精细化运营越来越重要,“实时即未来”、“实时数仓”、“数据湖” 成为了近几年炙手可热的词。流计算领域的格局也在这几年发生了巨大的变化,...
2022-10-29 19:38:00 136
原创 Flink性能测试case案例
在我们做测试之前,调研了一些已有的大数据平台性能测试报告,比如,雅虎的Streaming-benchmarks,或者Intel的HiBench等等。除此之外,还有很多的论文也从不同的角度对分布式计算平台进行了测试。虽然这些测试case各有不同的侧重点,但他们都用到了同样的两个指标,即吞吐和延迟。吞吐表示单位时间内所能处理的数据量,是可以通过增大并发来提高的。延迟代表处理一条数据所需要的时间,与吞...
2022-10-29 19:26:00 181
原创 Keeping Multiple Databases in Sync Using Kafka Connect and CDC
SEP 20, 2022Microservices architectures have now been widely adopted among developers, and with a great degree of success. However, drawbacks do exist. Data silos can arise where information proce...
2022-10-13 15:22:00 78
原创 一种Hudi on Flink动态同步元数据变化的方法
一、背景一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。二、官方Schema Evolution例子从Hudi官方文档Schema Evolution(https://hudi.apache.org/docs/next/schema_evolution)可知通过Hudi可实现源端添加列、int到long列类型转换等DDL操作同步到目标端,且该文档...
2022-09-29 10:33:00 105
原创 Curator处理zookeeper会话过期session expired
1、什么是zookeeper的会话过期?通常使用zookeeper集群模式,client和zookeeper集群(3个实例)建立一个会话session。所谓session即client随机与其中一个zk provider建立的链接,并且互发心跳heartbeat。zookeeper集群负责管理该session,并且在所有的provider上维护该session信息(session定义的...
2022-09-17 16:46:00 379
原创 zookeeper所有超时异常全解析
ZooKeeper的超时异常包括两种:1)客户端的readTimeout导致连接丢失。2)服务端会话超时sessionTimeout导致客户端连接失效。客户端的readTimeout导致连接丢失ZooKeeper客户端的readTimeout无法显示设置,根据会话超时时间计算得来:1. 当客户端还未完成连接(即服务端还未完成客户端会话的创建,未通知客户端Watcher.Event.Ke...
2022-09-17 15:49:00 579
原创 如何停止CLOSE_WAIT端口:How do I remove a CLOSE_WAIT socket connection
10456I have written a small program that interacts with a server on a specific port. The program works fine, but:Once the program terminated unexpectedly, and ever since that socket conne...
2022-07-04 19:47:00 79
原创 HttpServer:JDK 内置的轻量级 HTTP 服务器
1. 概述官方https://docs.oracle.com/javase/9/docs/api/com/sun/net/httpserver/package-summary.htmlHttpServer 是 JDK 1.6 以后内置的一个轻量级 HTTP 服务器(在 rt.jar 包中的 com.sun.net.httpserver 包下)。一个 HttpServer 实例被绑定到一个I...
2022-07-04 14:53:00 243
原创 Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/ho...
Caused by: com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/home/FlinkIdeaDemo-1.0.jar!/reference.conf: 875: Could not resolve substitution to a value: ${akka.s...
2022-06-24 16:26:00 194
原创 TPC-DS tools生成数据:ERROR: Failed to open output file! File print.c Line: 490
生成数据的目录需要提前创建好[root@felixzh tools]# mkdir /home/my_data_1G
2022-06-22 17:18:00 112
原创 Flink KeyBy分布不均匀问题及解决方法
问题现象当Key数量较少时,Flink流执行KeyBy(),并且设置的并行度setParallelism()不唯一时,会出现分到不同task上的key数量不均匀的情况,即:某些subtask没有分到数据,但是某些subtask分到了较多的key对应的数据Key数量较大时,不容易出现这类不均匀的情况。原因分析在多并行度配置下,Flink会对Key进行分组,即得到Key Group...
2022-06-01 22:39:00 144
原创 ClassNotFoundException和NoClassDefFoundError
最近工作中发现老是有同事遇到NoClassDefFoundError以及ClassNotFoundException这两种异常,很对人对此比较困惑,于是研究了一下并整理了此文档,希望对大家有所帮助。ClassNotFoundException这个比较好理解,就是找不到类。其直接原因是:当应用调用类的forName方法、调用ClassLoader的findSystemClass方法、调用Class...
2022-05-27 16:59:00 56
原创 HBase rowkey与预分区知识点
一、引言HBase其存储和读写的高性能,作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Rowkey的ASCII字典顺序进行全局排序的,有伙伴可能对ASCII字典序印象不够深刻,下面举例说明:假如有5个Rowkey:"012", "0", "123", "234", "...
2022-05-24 19:54:00 53
原创 gradle:secure protocol (like HTTPS) or allow insecure protocols
最近在编译cruise-control-2.5.92,gradle提示Using insecure protocols with repositories, without explicit opt-in, has been deprecated. This is scheduled to be removed in Gradle 7.0. Switch Maven repository '...
2022-05-19 10:54:00 217
原创 Configuring Kerberos with OpenLDAP back-end
Configuring Kerberos with OpenLDAP back-endMake sure the LDAP server is using local authentication (ldapi://) or TLS (ldaps). Seehttps://www.openldap.org/doc/admin24/tls.htmlfor instructions on...
2022-05-14 09:17:00 44
原创 Kerberos and LDAP
Kerberos supports a few database backends. The default one is what we have been using so far, calleddb2. TheDB Typesdocumentation shows all the options, one of which is LDAP.There are several rea...
2022-05-14 09:16:00 51
原创 布隆过滤器BloomFilter概念、原理、实现
BitMap现代计算机用二进制(bit,位)作为信息的基础单位,1 个字节等于 8 位。许多开发语言都提供了操作位的功能,合理地使用位能够有效地提高内存使用率和开发效率。Bit-map 的基本思想就是用一个 bit 位来标记某个元素对应的 value,而 key 即是该元素。由于采用了 bit 为单位来存储数据,因此在存储空间方面,可以大大节省。在 Java 中,int 占 4 字节,1 ...
2022-04-22 09:42:00 46
原创 哈希函数与哈希冲突
什么是HashHash(哈希),又称“散列”。在某种程度上,散列是与排序相反的一种操作,排序是将集合中的元素按照某种方式比如字典顺序排列在一起。而散列通过计算哈希值,打破元素之间原有的关系,使集合中的元素按照散列函数的分类进行排列。在介绍一些集合时,我们总强调需要重写某个类的 equlas() 方法和 hashCode() 方法,确保唯一性。这里的 hashCode() 表示的是对当前对象...
2022-04-21 20:26:00 39
原创 Bloom Filters by Example
Bloom filter 是一个数据结构,它可以用来判断某个元素是否在集合内,具有运行快速,内存占用小的特点。而高效插入和查询的代价就是,Bloom Filter 是一个基于概率的数据结构:它只能告诉我们一个元素绝对不在集合内或可能在集合内Bloom filter 的基础数据结构是一个比特向量。 下面是一个简单的示例:表中的每一个空格表示一个比特, 空格下面的数字表示它的索引。只需要简单...
2022-04-21 20:01:00 34
原创 Troubleshooting Apache Flink with Byteman
IntroductionWhat would you do if you need to see more details of some Apache Flink application logic at runtime, but there's no logging in that code path? An option is modifying the Flink source cod...
2022-04-21 16:06:00 40
原创 How to Configure RocksDB Logging for Advanced Troubleshooting
QuestionRocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging?AnswerNote:This section applies to Flink 1.10 - 1.14By default, Flink uses ...
2022-04-19 19:49:00 44
原创 Apache Flink - is it possible to evenly distribute slot sharing groups?
We have a pipeline with operations, split into 2 workloads -Source -> Transformare in a first group and are CPU-intensive workloads, they are put into the same slot sharing group, lets says...
2022-04-19 11:14:00 45
原创 Apache Hudi的索引类型及应用场景
Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含的记录的更新合并。相比之下,没有索引的设计(比如Apache Hive ACID),可能会导致需要...
2022-04-09 10:05:00 53
原创 Apache Hudi核心概念一网打尽
1. 场景https://hudi.apache.org/docs/use_cases.html近实时写入减少碎片化工具的使用CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ,节省资源提供分钟级别时效性,支撑更高效的查询Hudi 作为 lib,非常轻量增量 pipeline区分 arriv...
2022-04-08 14:46:00 35
原创 Bloom Filter在Hudi中的应用
介绍Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,主要缺点是存在一定的误判率:当其判断元素存在时,实际上元素可能并不存在。而当判定不存在时,则元素一定不存在,Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛。引入为何要引入Bloom Filter?这是Hudi为加快数据upsert采用的一种解决方案...
2022-04-08 11:17:00 45
原创 实战案例:Sql client使用sql操作FlinkCDC2Hudi、支持从savepoint恢复hudi作业
Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysql cdc数据经kafka入hudi数据湖的例子。整体流程如下:在上述第二步中,我们通过手工停止kafka→hudi的Flink任务,然后在Flink SQL Client从savepoint进行恢复。下述工...
2022-04-06 09:41:00 59
原创 Flink如何设置RocksDB日志:How to Configure RocksDB Logging for Advanced Troubleshooting
QuestionRocksDB's LOG file comes in handy when troubleshooting Flink with RocksDB. How can I configure RocksDB logging?AnswerNote:This section applies to Flink 1.10 - 1.14By default, Flink uses ...
2022-03-22 09:29:00 92
原创 Flink 自定义触发器实现带超时时间的 CountWindow
Flink 的 window 有两个基本款,TimeWindow 和 CountWindow。TimeWindow 是到时间就触发窗口,CountWindow 是到数量就触发。TimeWindow、CountWindow 都可以分为滚动窗口、滑动窗口如果我需要到时间就触发,并且到时间之前如果已经积累了足够数量的数据;或者在限定时间内没有积累足够数量的数据,我依然希望触发窗口业务,那么就需要自...
2022-03-15 11:40:00 65
原创 实战案例:Flink1.3.1 ON Hudi0.10,同步数据到Hive
由于业务需要调研数据湖的使用,这里以Hudi0.10为例,使用的是CDH6.2.1的集群。一、编译Hudi0.10 在centos7上编译,需要配置maven,安装scala环境和docker环境,使用集群环境为CDH6.2.1maven配置tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /app# 配置环境变量export MAVEN_HOM...
2022-02-22 14:52:00 98
微软office程序集
2015-03-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人