自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(187)
  • 资源 (6)
  • 收藏
  • 关注

原创 大数据重要操作

经纬度计算 GeoHash,相同区域内根据lng,lat和GeoHash方法得出的结果相同<dependency><groupId>ch.hsr</groupId><artifactId>geohash</artifactId><version>1.3.0</version></dependency>GeoHash.geoHashStringWithCharacterPrecision(l

2021-03-09 22:16:56 816

原创 doris 数据导入、数据权限、资源管理

/ skip_lines: 整数类型, 默认值为0, 含义为跳过csv文件的前几行. 当设置format设置为 csv_with_names 或、csv_with_names_and_types 时, 该参数会失效.// strict_mode 严格模式,由于数据库设置了字段类型,在由文本中的字符串数据转换到数据库字段类型失败时,严格模式会认为该条数据是错误数据。// 如hive文件的分隔符\x01,需要指定为-H "column_separator:\x01"。# FE(65服务器)

2024-06-20 16:12:47 581

原创 Doris建表注意事项

KEY想要做key的字段必须是非空字段(NOT NULL) key字段必须从表的第一个字段开始选择,并且需要连续选择,不可跳跃选择 eg: 表的字段为 a,b,c,d 四个字段,那么key只能选择a、ab、abc、abcd 四种VALUE分组聚合模型中,value列必须设置聚合方式 字符串类型无法进行sum分区 KEYRange 分区支持的列类型:[DATE,DATETIME,TINYINT,SMALLINT,INT,BIGINT,LARGEINT] List 分区支持的列类型: [

2024-04-08 14:39:40 214

原创 Flink on Kubernetes (flink-operator) 部署Flink

部署cluster完成,配置svcType 后即可访问,flink web ui,此时jobManager是启动着的 taskmanager随着flink jar进行启动和停止。3、使用initContainers和 containers使用相同的挂载路径,然后使用远程文件下载放到挂载路径中,containers就能获取到该jar包。此处jarURL只得是docker内部路径,且不支持远程路径(http/s3/hdfs),因此需要将jar包放到docker内部。2、可以使用pvc挂载进去。

2024-03-27 15:01:53 1194

原创 k8s运维命令小工具

clusterrolebinding 为一个指定的 ClusterRole 创建一个 ClusterRoleBinding。rolebinding 为一个指定的 Role 或者 ClusterRole创建一个 RoleBinding。service 使用指定的 subcommand 创建一个 service.serviceaccount 创建一个指定名称的 service account。

2024-03-13 13:47:32 617

原创 dolphinscheduler k8s部署

我是两节点的虚拟机,环境资源如果不够在启动的时候会有很多异常,测试的时候其实只需要修改一个资源需求就行。按照他官网的指示 我的操作不生效,因此,手动指定scv暴露方式为 NodePort。由apache/dolphinscheduler 改成apache。有可能是我修改了bitnami的仓库地址导致此处才需要修改。配置了采用本地文件系统,不使用s3,hdfs。原bitnami仓库地址会有问题改成这个。

2024-03-07 14:28:45 314

原创 访问https网站,edge浏览器,thisisunsafe不生效

打开控制台输入。

2024-03-07 11:18:57 1043 3

原创 sqoop事务如何实现

场景1:如Sqoop在导出hdfs数据到Mysql时,某个字段过长导致任务失败,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?场景2:如Sqoop在导出hdfs数据到Mysql时,某个字段重复导致主键冲突,该错误记录之前的数据正常导入,之后的数据无法导入。如何保证错误发生后数据回滚?

2024-01-17 15:45:10 556

原创 kafka topic分区数设定

测试结果:31.89 34.10 前后对比可以得知,每次发送70000条记录时效率最高,此时吞吐量 70000*1KB/s 70MB/s。--producer-props bootstrap.servers=localhost:9092 # 指定服务。kafka-producer-perf-test.sh # 生产者测试。--num-records 300000 # 总共300000条数据。kafka-consumer-perf-test.sh # 消费者测试。# 消费者吞吐量测试工具。

2024-01-11 10:22:36 1237

原创 spark的任务提交方式及流程

测试用,不多赘述。

2024-01-05 16:35:59 562

原创 Easycode模板,基于官方提供的Mybatis-plus模板改造

Easycode模板,逆向工程,单表增删改查,从前端到后端不需要任何一点代码

2024-01-05 16:16:10 1206

原创 ambari失败重装重置环境

ambari失败重装重置环境

2023-10-19 17:21:54 228

原创 Flink中jobmanager、taskmanager、slot、task、subtask、Parallelism的概念

一个工厂有三个车间每个车间两条生产线生产流程如下原料->加工->过滤->分类->美化->包装->下线。

2023-10-10 15:32:35 671

原创 关于flink重新提交任务,重复消费kafka的坑

1、savepoint的数据要比checkpoint更加稳定,比如你可以通过移动(拷贝)savepoint 目录到任意地方,然后再进行恢复。checkpoint就不可以,因为他有很多相对路径配置。2、savepoint和checkpoint一般都能作为恢复点使用,例外情况是使用 RocksDB 状态后端的增量 Checkpoint。他们使用了一些 RocksDB 内部格式,而不是 Flink 的本机 Savepoint 格式。

2023-10-08 14:30:33 1724

原创 分布式程序中YARN中的角色

和。

2023-09-21 15:35:36 450

原创 vue-webpack代码混淆、代码压缩设置

压缩为gz包后,是否删除源js文件,如果设置为true nginx需要额外配置资源文件目录。只需要第一个插件即可,后边两个可以有可以没有。可以在这个网站测试自己需要的混淆方式。

2023-08-03 14:40:42 1181

原创 常用正则表达式

正则表达式 a和b之间只能有空格,或者没有空格。正则表达式 a之前只能有空格或者逗号。

2023-07-06 09:22:08 75

原创 Flink动态ClickhouseSink+自动建表

通过自定义注解的形式,对JdbcSink进行封装,支持自动建表、自动拼接insert语句

2023-07-04 14:29:05 1553

原创 doris docker部署和本地化部署 1.2.4.1版本

以下操作语句按顺序执行即可,如果需要改动的地方会有${}注释,其余不需要任何改动,默认安装版本为1.12.4。

2023-06-15 17:48:32 2722 1

原创 seatunnel入门案例,集群模式

启动任务之后会有一个jobid,如果直接kill 进程是不管用的,seatunnel任务依然会执行,需要使用 -can jobid 结束任务。seatunnel 包括三种执行引擎。

2023-06-13 17:32:40 2727

原创 ldap服务安装,客户端安装,ldap用户登录验证测试

5、验证LDAP,使用客户端计算机上的LDAP用户“ hiveuser” 登录。2、配置ladp账号密码域名。3、重启LDAP客户端服务器。

2023-06-07 17:09:27 1372

原创 Kafka开启SASL认证,访问速度很慢

kafka集群开启sasl配置后,本地电脑使用kafkatools连接kafka集群速度非常非常慢,但是生产环境的kafkaconsumer却很快,而且不采用sasl模式也是很快的,最后在本地hosts添加kafka集群的域名配置,连接地址采用域名不使用Ip就可以了。

2023-06-05 14:26:18 656

原创 Flink-ChatGpt问答专题

需要注意的是,如果您在更新作业时只是修改了作业参数,而没有修改作业逻辑,则新的JobGraph和之前的JobGraph可能是相同的。需要注意的是,为了保证exactly-once语义,您需要在Flink作业中启用checkpoint机制,并配置适当的checkpoint间隔和超时时间。需要注意的是,在使用checkpoint机制时,您需要确保作业的处理逻辑是幂等的,即重复处理同一条记录不会产生副作用。在Flink中,判断是重启还是换了一个新的Jar包,是根据作业的JobID和JobGraph来进行的。

2023-06-01 14:48:40 644

原创 Flink on yarn任务日志怎么看

在flink的webui中可以看,但是flink任务失败后,webui就不存在了,那怎么看?

2023-05-30 14:29:01 3092 3

原创 排查linux大文件

sudo du -ah / | grep "[0-9]G\b"

2023-05-29 16:08:46 59

原创 flink广播流与主数据流加载顺序问题,怎么保证字典数据优先加载

flink怎么保证广播流比数据流先到?前置条件:flink cdc 监听字典表并广播,主流消费kafka设置消费模式为earliest如果当字典表数据稍微大了点,那么主流数据会比广播流数据到的早

2023-05-18 17:19:20 783

原创 Flink dataStream,如何开窗,如何进行窗口内计算

增量聚合的缺点过于明显,但是平时的业务对于全量窗口的需求又没这么高,因此Flink提供了一个增量聚合函数携带全量聚合函数的混合使用API,数据处理逻辑还是走增量聚合的逻辑,省资源、效率高,但是一个窗口的数据处理完成后,会调用一次全量窗口函数。优点:可以获取整个窗口的全量数据,对数据的可处理性更强,比如排序。开完窗口后数据的处理方式,首先要对数据进行聚合,聚合的方式分两种,一种全量聚合,一种增量聚合。每个窗口的所有数据调用一次该函数,在这个函数中有个迭代器,可以获取当前窗口的所有数据。

2023-05-09 10:18:05 630

原创 FlinkSql,如何开窗,如何进行窗口内计算

将表应用一下TVF(table-valued function )函数,返回一个开窗的表,开窗TVF函数目前有三个。直接查询,报错,对于开窗后的表需要用,window_start,window_end。以最简单的Tumble,滚动窗口作为例子,无论什么开窗方式,查询方法是一样的。问题:每10分钟求最近10分钟交易额最大的前2条记录。问题:每10分钟求最近10分钟的总交易额。

2023-04-26 15:31:26 1599 1

原创 Flink Join操作

对处于同一窗口的数据进行join时间类型:processTime、eventTime问题:1、不在同一窗口的数据无法join,2、只能inner join。

2023-04-26 11:29:14 976

原创 java Poi操作Excel,插入行,保留行格式

动态Excel,如何在指定行后插入一定数量的空行,并且拷贝指定行的样式

2023-03-30 16:46:51 3467 1

原创 常用docker容器安装,mysql,redis,clickhouse,elasticsearch

常用docker容器。

2023-03-27 10:15:15 167

原创 Win11升级后Edge打不开解决办法

Win11升级后Edge打不开 联想电脑请卸载掉自带的联想电脑管家

2023-03-16 09:56:45 884 2

原创 spark RDD中的并行度、分区器默认策略

yarn:getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)),根据spark.default.parallelism参数,如果没配置就是yarn的executor的总逻辑核数,最小也得两个并行度。如果上游所有rdd中的最大并行度/最大分区器所在rdd的并行度

2023-03-14 13:57:21 801

原创 spark如何生成/加载checkpoint的数据

sparkContext中checkpointFile方法是私有的,我们可以在org.apache.spark包下创建一个一个类,调用checkpointFile方法即可。sparkContext通过checkpointFile方法指定ck目录,实现加载上次的数据,但是不对外开放。需要缓存的rdd调用checkpoint方法。设置checkpoint目录。

2023-03-13 16:01:48 162

原创 spark数据源小文件问题如何解决

当小文件很多的时候,如果用默认的InputFormat效率会很低,此时我们可以采用CombineFileInputFormat,它会首先合并小文件,然后再交给task进行调度。spark读取hdfs文件时,会将一个分片作为一个分区,使用一个task进行调度,如果文件不足128M,也会作为一个分区。

2023-03-10 19:22:56 367

原创 flink-cdc,clickhouse写入,多路输出

高级:入clickhouse的同时推送到kafka供2次数据流程处理。kafka日志数据从kafka读取。2、判断日志内容级别:多路输出。1、关联字典表:完善日志数据。低级:入clickhouse。

2023-01-30 17:20:29 2014

原创 大数据异常

大数据异常。

2023-01-17 14:09:17 663

原创 clickhouse整合ldap,无需重启

在中添加 ldap服务片段,按需替换 bind_dn,hdp201_ldap就是为这个ldap服务起个名字。创建用户uid2,根据我们配置的ldap server服务器来创建,hdp201_ldap 就是上边创建的服务名称。打开default用户此处的注释,使default用户拥有创建用户、赋权的权限。但是需要在ldap中创建一次用户,然后再clickhouse中再创建一次。需要开启default用户创建用户、授权的权限。

2023-01-12 15:58:56 476

原创 spark三种实现map端join的方式:闭包、广播、缓存文件

前者发送数据的时候,采用bitTolerant协议,首先driver将obj序列化后分为多份,然后某个task获取到一部分之后就可以作为服务器发给另外的task。主要区别:广播变量传输的效率要高于闭包引用,尤其是obj数据比较大时效果明显。后者每个task的obj数据都有driver端序列化后发送过来的。spark中函数体内引用函数体外部变量,有如下两种方式。

2023-01-04 17:08:50 704

原创 linux,ntp时间同步服务器设置步骤

注释原有的server, 新增一个server。注释原有的server, 新增一个pool。服务器客户端都要运行,可以先启动服务端。服务器客户端都要运行,可以先启动服务端。

2022-12-01 10:59:57 372

apache-dolphinscheduler-3.1.9-bin.tar.gz

官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢 官网下载很慢

2024-05-30

easycode模板,创作不易,谢谢支持!

1、接口类默认继承实体类 实体类不做任何修改保证类与表统一,不使用冗余的vo dto,一个dto解决所有问题 2、实体类涵盖多种注解 日期格式编码、Long类型转String、字段自动填充、validate校验 3、自带insertOrUpdateBatch方法 4、自动生成前端的增删改查页面 (vue 2.x,前端模板由于基础框架原因,需要自己稍微改动一下,之后可以直接生成) 5、牛逼的导入导出解决方案 支持导出模板、导出数据 支持导入校验,字符长度校验,日期类型校验,布尔类型校验,小数精度校验 上传文件,如果异常会返回批改后的文件(红色字体批注) 容错导入,正常数据会自动导入,异常数据会批改后返回 详情见 https://blog.csdn.net/java_creatMylief/article/details/135412341

2024-05-20

dolphinscheduler k8s部署

3.2.0版本,k8s部署dolphinscheduler的deploy包

2024-03-07

MySQL-client-server-5.6.26-1.linux_glibc2.5.x86_64.rar

linux mysql 5.6.26 server client

2020-12-25

nacos-server-1.1.3.zip

github下载慢

2020-04-25

转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的

利用 openOffice 或者libOffice 转换office为pdf时 jodconverter-2.2.2 之前的jar包都是不支持高版本office的 但是maven仓库只有2.2.1 所以下载该包 新建文件夹2.2.2在本地仓库中 然后将该jar包放到该文件夹下,maven pom 引入2.2.2 就可以了

2019-01-08

mysql 5.6 yum版 一键安装

第一步:rpm -ivh mysql-community-release-el6-5.noarch.rpm 第二步:yum install mysql-community-server mysql 出现询问就按Y mysql即可安装完毕 注意安装的服务名称不是mysql 是mysql的 但是用法一样 root初始密码为空 祝好运!!!!

2018-11-22

8天学会hadoop2+storm

8天学会hadoop2+storm

2017-12-21

hadoop storm spark 机器学习

hadoop storm spark 机器学习

2017-12-03

MySQL-client-5.5.54-1.linux2.6.x86_64.rpm

linux的客户端 还有响应的服务端,可以搜搜看,先安装服务端

2017-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除