自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(186)
  • 资源 (6)
  • 收藏
  • 关注

原创 大数据重要操作

经纬度计算 GeoHash,相同区域内根据lng,lat和GeoHash方法得出的结果相同<dependency><groupId>ch.hsr</groupId><artifactId>geohash</artifactId><version>1.3.0</version></dependency>GeoHash.geoHashStringWithCharacterPrecision(l

2021-03-09 22:16:56 771

原创 Doris建表注意事项

KEY想要做key的字段必须是非空字段(NOT NULL) key字段必须从表的第一个字段开始选择,并且需要连续选择,不可跳跃选择 eg: 表的字段为 a,b,c,d 四个字段,那么key只能选择a、ab、abc、abcd 四种VALUE分组聚合模型中,value列必须设置聚合方式 字符串类型无法进行sum分区 KEYRange 分区支持的列类型:[DATE,DATETIME,TINYINT,SMALLINT,INT,BIGINT,LARGEINT] List 分区支持的列类型: [

2024-04-08 14:39:40 158

原创 Flink on Kubernetes (flink-operator) 部署Flink

部署cluster完成,配置svcType 后即可访问,flink web ui,此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径,然后使用远程文件下载放到挂载路径中,containers就能获取到该jar包。此处jarURL只得是docker内部路径,且不支持远程路径(http/s3/hdfs),因此需要将jar包放到docker内部。2、可以使用pvc挂载进去。

2024-03-27 15:01:53 1052

原创 k8s运维命令小工具

clusterrolebinding 为一个指定的 ClusterRole 创建一个 ClusterRoleBinding。rolebinding 为一个指定的 Role 或者 ClusterRole创建一个 RoleBinding。service 使用指定的 subcommand 创建一个 service.serviceaccount 创建一个指定名称的 service account。

2024-03-13 13:47:32 599

原创 dolphinscheduler k8s部署

我是两节点的虚拟机,环境资源如果不够在启动的时候会有很多异常,测试的时候其实只需要修改一个资源需求就行。按照他官网的指示 我的操作不生效,因此,手动指定scv暴露方式为 NodePort。由apache/dolphinscheduler 改成apache。有可能是我修改了bitnami的仓库地址导致此处才需要修改。配置了采用本地文件系统,不使用s3,hdfs。原bitnami仓库地址会有问题改成这个。

2024-03-07 14:28:45 248

原创 访问https网站,edge浏览器,thisisunsafe不生效

打开控制台输入。

2024-03-07 11:18:57 735 3

原创 sqoop事务如何实现

场景1:如Sqoop在导出hdfs数据到Mysql时,某个字段过长导致任务失败,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?场景2:如Sqoop在导出hdfs数据到Mysql时,某个字段重复导致主键冲突,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?

2024-01-17 15:45:10 545

原创 kafka topic分区数设定

测试结果:31.89 34.10 前后对比可以得知,每次发送70000条记录时效率最高,此时吞吐量 70000*1KB/s 70MB/s。--producer-props bootstrap.servers=localhost:9092 # 指定服务。kafka-producer-perf-test.sh # 生产者测试。--num-records 300000 # 总共300000条数据。kafka-consumer-perf-test.sh # 消费者测试。# 消费者吞吐量测试工具。

2024-01-11 10:22:36 1192

原创 spark的任务提交方式及流程

测试用,不多赘述。

2024-01-05 16:35:59 529

原创 Easycode模板,基于官方提供的Mybatis-plus模板改造

Easycode模板,逆向工程,单表增删改查,从前端到后端不需要任何一点代码

2024-01-05 16:16:10 943

原创 ambari失败重装重置环境

ambari失败重装重置环境

2023-10-19 17:21:54 205

原创 Flink中jobmanager、taskmanager、slot、task、subtask、Parallelism的概念

一个工厂有三个车间每个车间两条生产线生产流程如下原料->加工->过滤->分类->美化->包装->下线。

2023-10-10 15:32:35 609

原创 关于flink重新提交任务,重复消费kafka的坑

1、savepoint的数据要比checkpoint更加稳定,比如你可以通过移动(拷贝)savepoint 目录到任意地方,然后再进行恢复。checkpoint就不可以,因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用,例外情况是使用 RocksDB 状态后端的增量 Checkpoint。他们使用了一些 RocksDB 内部格式,而不是 Flink 的本机 Savepoint 格式。

2023-10-08 14:30:33 1490

原创 分布式程序中YARN中的角色

和。

2023-09-21 15:35:36 441

原创 vue-webpack代码混淆、代码压缩设置

压缩为gz包后,是否删除源js文件,如果设置为true nginx需要额外配置资源文件目录。只需要第一个插件即可,后边两个可以有可以没有。可以在这个网站测试自己需要的混淆方式。

2023-08-03 14:40:42 1010

原创 常用正则表达式

正则表达式 a和b之间只能有空格,或者没有空格。正则表达式 a之前只能有空格或者逗号。

2023-07-06 09:22:08 70

原创 Flink动态ClickhouseSink+自动建表

通过自定义注解的形式,对JdbcSink进行封装,支持自动建表、自动拼接insert语句

2023-07-04 14:29:05 1484

原创 doris docker部署和本地化部署 1.2.4.1版本

以下操作语句按顺序执行即可,如果需要改动的地方会有${}注释,其余不需要任何改动,默认安装版本为1.12.4。

2023-06-15 17:48:32 2535

原创 seatunnel入门案例,集群模式

启动任务之后会有一个jobid,如果直接kill 进程是不管用的,seatunnel任务依然会执行,需要使用 -can jobid 结束任务。seatunnel 包括三种执行引擎。

2023-06-13 17:32:40 2583

原创 ldap服务安装,客户端安装,ldap用户登录验证测试

5、验证LDAP,使用客户端计算机上的LDAP用户“ hiveuser” 登录。2、配置ladp账号密码域名。3、重启LDAP客户端服务器。

2023-06-07 17:09:27 1351

原创 Kafka开启SASL认证,访问速度很慢

kafka集群开启sasl配置后,本地电脑使用kafkatools连接kafka集群速度非常非常慢,但是生产环境的kafkaconsumer却很快,而且不采用sasl模式也是很快的,最后在本地hosts添加kafka集群的域名配置,连接地址采用域名不使用Ip就可以了。

2023-06-05 14:26:18 566

原创 Flink-ChatGpt问答专题

需要注意的是,如果您在更新作业时只是修改了作业参数,而没有修改作业逻辑,则新的JobGraph和之前的JobGraph可能是相同的。需要注意的是,为了保证exactly-once语义,您需要在Flink作业中启用checkpoint机制,并配置适当的checkpoint间隔和超时时间。需要注意的是,在使用checkpoint机制时,您需要确保作业的处理逻辑是幂等的,即重复处理同一条记录不会产生副作用。在Flink中,判断是重启还是换了一个新的Jar包,是根据作业的JobID和JobGraph来进行的。

2023-06-01 14:48:40 628

原创 Flink on yarn任务日志怎么看

在flink的webui中可以看,但是flink任务失败后,webui就不存在了,那怎么看?

2023-05-30 14:29:01 2747 3

原创 排查linux大文件

sudo du -ah / | grep "[0-9]G\b"

2023-05-29 16:08:46 48

原创 flink广播流与主数据流加载顺序问题,怎么保证字典数据优先加载

flink怎么保证广播流比数据流先到?前置条件:flink cdc 监听字典表并广播,主流消费kafka设置消费模式为earliest如果当字典表数据稍微大了点,那么主流数据会比广播流数据到的早

2023-05-18 17:19:20 709

原创 Flink dataStream,如何开窗,如何进行窗口内计算

增量聚合的缺点过于明显,但是平时的业务对于全量窗口的需求又没这么高,因此Flink提供了一个增量聚合函数携带全量聚合函数的混合使用API,数据处理逻辑还是走增量聚合的逻辑,省资源、效率高,但是一个窗口的数据处理完成后,会调用一次全量窗口函数。优点:可以获取整个窗口的全量数据,对数据的可处理性更强,比如排序。开完窗口后数据的处理方式,首先要对数据进行聚合,聚合的方式分两种,一种全量聚合,一种增量聚合。每个窗口的所有数据调用一次该函数,在这个函数中有个迭代器,可以获取当前窗口的所有数据。

2023-05-09 10:18:05 605

原创 FlinkSql,如何开窗,如何进行窗口内计算

将表应用一下TVF(table-valued function )函数,返回一个开窗的表,开窗TVF函数目前有三个。直接查询,报错,对于开窗后的表需要用,window_start,window_end。以最简单的Tumble,滚动窗口作为例子,无论什么开窗方式,查询方法是一样的。问题:每10分钟求最近10分钟交易额最大的前2条记录。问题:每10分钟求最近10分钟的总交易额。

2023-04-26 15:31:26 1370 1

原创 Flink Join操作

对处于同一窗口的数据进行join时间类型:processTime、eventTime问题:1、不在同一窗口的数据无法join,2、只能inner join。

2023-04-26 11:29:14 794

原创 java Poi操作Excel,插入行,保留行格式

动态Excel,如何在指定行后插入一定数量的空行,并且拷贝指定行的样式

2023-03-30 16:46:51 3158 1

原创 常用docker容器安装,mysql,redis,clickhouse,elasticsearch

常用docker容器。

2023-03-27 10:15:15 157

原创 Win11升级后Edge打不开解决办法

Win11升级后Edge打不开 联想电脑请卸载掉自带的联想电脑管家

2023-03-16 09:56:45 813 2

原创 spark RDD中的并行度、分区器默认策略

yarn:getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)),根据spark.default.parallelism参数,如果没配置就是yarn的executor的总逻辑核数,最小也得两个并行度。如果上游所有rdd中的最大并行度/最大分区器所在rdd的并行度

2023-03-14 13:57:21 750

原创 spark如何生成/加载checkpoint的数据

sparkContext中checkpointFile方法是私有的,我们可以在org.apache.spark包下创建一个一个类,调用checkpointFile方法即可。sparkContext通过checkpointFile方法指定ck目录,实现加载上次的数据,但是不对外开放。需要缓存的rdd调用checkpoint方法。设置checkpoint目录。

2023-03-13 16:01:48 146

原创 spark数据源小文件问题如何解决

当小文件很多的时候,如果用默认的InputFormat效率会很低,此时我们可以采用CombineFileInputFormat,它会首先合并小文件,然后再交给task进行调度。spark读取hdfs文件时,会将一个分片作为一个分区,使用一个task进行调度,如果文件不足128M,也会作为一个分区。

2023-03-10 19:22:56 357

原创 flink-cdc,clickhouse写入,多路输出

高级:入clickhouse的同时推送到kafka供2次数据流程处理。kafka日志数据从kafka读取。2、判断日志内容级别:多路输出。1、关联字典表:完善日志数据。低级:入clickhouse。

2023-01-30 17:20:29 1954

原创 大数据异常

大数据异常。

2023-01-17 14:09:17 584

原创 clickhouse整合ldap,无需重启

在中添加 ldap服务片段,按需替换 bind_dn,hdp201_ldap就是为这个ldap服务起个名字。创建用户uid2,根据我们配置的ldap server服务器来创建,hdp201_ldap 就是上边创建的服务名称。打开default用户此处的注释,使default用户拥有创建用户、赋权的权限。但是需要在ldap中创建一次用户,然后再clickhouse中再创建一次。需要开启default用户创建用户、授权的权限。

2023-01-12 15:58:56 443

原创 spark三种实现map端join的方式:闭包、广播、缓存文件

前者发送数据的时候,采用bitTolerant协议,首先driver将obj序列化后分为多份,然后某个task获取到一部分之后就可以作为服务器发给另外的task。主要区别:广播变量传输的效率要高于闭包引用,尤其是obj数据比较大时效果明显。后者每个task的obj数据都有driver端序列化后发送过来的。spark中函数体内引用函数体外部变量,有如下两种方式。

2023-01-04 17:08:50 679

原创 linux,ntp时间同步服务器设置步骤

注释原有的server, 新增一个server。注释原有的server, 新增一个pool。服务器客户端都要运行,可以先启动服务端。服务器客户端都要运行,可以先启动服务端。

2022-12-01 10:59:57 352

原创 spark读取Jdbc数据

创建一个JdbcRdd,这个JdbcRdd是rdd的子类,需要7个参数,有一定局限性。

2022-11-16 14:15:09 882

easycode模板,创作不易,谢谢支持!

1、接口类默认继承实体类 实体类不做任何修改保证类与表统一,不使用冗余的vo dto,一个dto解决所有问题 2、实体类涵盖多种注解 日期格式编码、Long类型转String、字段自动填充、validate校验 3、自带insertOrUpdateBatch方法 4、自动生成前端的增删改查页面 (vue 2.x,前端模板由于基础框架原因,需要自己稍微改动一下,之后可以直接生成) 5、牛逼的导入导出解决方案 支持导出模板、导出数据 支持导入校验,字符长度校验,日期类型校验,布尔类型校验,小数精度校验 上传文件,如果异常会返回批改后的文件(红色字体批注) 容错导入,正常数据会自动导入,异常数据会批改后返回 详情见 https://blog.csdn.net/java_creatMylief/article/details/135412341

2024-05-20

dolphinscheduler k8s部署

3.2.0版本,k8s部署dolphinscheduler的deploy包

2024-03-07

MySQL-client-server-5.6.26-1.linux_glibc2.5.x86_64.rar

linux mysql 5.6.26 server client

2020-12-25

nacos-server-1.1.3.zip

github下载慢

2020-04-25

转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的

利用 openOffice 或者libOffice 转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的 但是maven仓库只有2.2.1 所以下载该包 新建文件夹2.2.2在本地仓库中 然后将该jar包放到该文件夹下,maven pom 引入2.2.2 就可以了

2019-01-08

mysql 5.6 yum版 一键安装

第一步:rpm -ivh mysql-community-release-el6-5.noarch.rpm 第二步:yum install mysql-community-server mysql 出现询问就按Y mysql即可安装完毕 注意安装的服务名称不是mysql 是mysql的 但是用法一样 root初始密码为空 祝好运!!!!

2018-11-22

8天学会hadoop2+storm

8天学会hadoop2+storm

2017-12-21

hadoop storm spark 机器学习

hadoop storm spark 机器学习

2017-12-03

MySQL-client-5.5.54-1.linux2.6.x86_64.rpm

linux的客户端 还有响应的服务端,可以搜搜看,先安装服务端

2017-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除