自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (2)
  • 收藏
  • 关注

原创 Flink将数据流导入Doris

DorisSink是通过StreamLoad向Doris写入数据,DataStream写入时,支持不同的序列化方法。setLabelPrefix:Stream load导入使用的label前缀。2pc场景下要求全局唯一 ,用来保证Flink的EOS语义。特殊字符作为分隔符:'sink.properties.escape_delimiters' = 'true'自定义字符串列分隔符:sink.properties.column_separator' = ', '如果是JSON格式导入需要加2个配置项。

2024-01-26 11:06:24 955 1

原创 java解析json字符串总结

这样我们会发现解析出来的结果只保留了非null值对应的key,但有时候可能我们需要将值为null对应的key也保留下来,这时候就可以通过指定SerializerFeature来实现。假如存在一个字符串jsonstr="{"id":1,"name":null,"age":null,"sex":"男"}",需要将其解析为Json对象。当一个JSON对象字段的值为空时,可以显示这个字段原来的键和值。当一个List字段为null时,可以将其输出为空数组。当一个JSON字符串值为空时,可以将其写成空字符串。

2024-01-23 10:29:04 387 1

原创 DriverManager.getConnection()中出现NoClassDefFoundError异常

Maven中MySQL8连接器中存在com.google.protobuf:protobuf-java:jar:3.6.1包,导致冲突了,可以降低mysql-connector-java的版本。2.6.1及以下版本的protobuf 的源码,里面存在LiteralByteString这个类。3.6.x的protobuf 的源码,里面并没有LiteralByteString这个类。降低protobuf版本。

2024-01-22 09:59:56 527

原创 Flink CDC 实时同步MySQL数据到Kafka

flink cdc底层就是通过监控mysql的binlog日志,实时捕获到一个表或多个表的变更;所以必须开启mysql的binlog日志。mysql配置文件默认位于/etc/目录下,直接用过以下命令开启。如果cdc版本用了2.4.0出现异常的可以退回2.3.0。

2024-01-19 09:35:00 1531 2

原创 JDK9或者以上版本出现Unable to make field private final byte[] java.lang.String.value accessible异常

这个问题是由于Java 9中的模块化导致的。为了提高Java的安全性,Java 9引入了模块系统,该系统可以控制不同模块之间的访问权限。模块系统将 Java 分成了若干个可以独立部署和运行的模块,使得 Java 应用可以更快地启动并更好地利用硬件资源。②编辑 VM options(如果没有使用快捷键alt+v)

2024-01-18 09:51:29 1861 2

原创 数仓快速生成建表语句

information_schema 是 MySQL 自带的数据库,其中含有多张表(本质是视图),主要用于存储元数据(数据库中的数据库名,表明, 列名这些)SCHEMATA表存储了当前 MySQL 实例中所有数据库的信息TABLES表存储数据库中的表信息(包括视图),包括表属于哪个数据库,表的类型、存储引擎、创建时间等信息COLUMNS表存储表中的列信息,包括表有多少列、每个列的类型等。

2023-12-28 20:50:38 376 1

原创 跨天数据拆分为多条(每天一条)

假如某个id对应的开始时间和结束时间存在跨天情况,而我们需要计算每一天的活跃id,可能会存在需要将跨天日期进行拆分(一条数据拆分为多条),如下图:可以看出id为1的这条数据不存在跨天,就不需要进行拆分;id为2的这条数据跨了一天,就需要拆分为id为3的这条数据也需要拆分为4条(跨天越多拆分得越多)...... 可以怎么实现呢?

2023-12-25 17:52:38 447

原创 蚁群算法(ACO)

蚁群算法(python实现)

2022-06-12 21:36:08 6796 1

原创 Spark基础

目录什么是Spark?Spark和Hadoop什么关系Spark的优点spark适合做什么?Spark的核心模块Spark的系统架构什么是Spark?Apache Spark是一种多语言引擎,用于单节点机器或集群上执行数据工程,数据科学和机器学习。简单来说:spark是一种大数据计算框架,是一种基于内存快速处理计算大数据的引擎。支持多种语言的API接口,可以单节点和集群部署,其又提供了用于数据分析,机器学习的库。Spark和Hadoop什么关系Hadoop只.

2022-01-24 20:12:09 2851 2

原创 spark-shell命令读取HDFS文件时文件不存在

先执行jps检查hadoop集群有没有正常启动 检查HDFS路径是否正确或文件夹的读写权限。注意:hdfs路径类似hdfs://localhost:9000/license.txt,千万不能直接写成/user/root/路径,否则就是读取本地路径(需要绝对路径) 如果集群在虚拟机里,就要用相应的ip地址...

2022-01-17 20:06:00 2969

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除