- 博客(60)
- 资源 (4)
- 收藏
- 关注
原创 (mysql和pg) -> flink-cdc -> kafka -> flink-sql -> StarRocks
【代码】(mysql和pg) -> flink-cdc -> kafka -> flink-sql -> StarRocks。
2023-11-22 15:58:08 225
原创 MongoDB复杂聚合查询与java中MongoTemplate的api对应
MongoTemplate的API。MongoDB聚合json脚本。
2023-09-08 14:04:50 674
原创 使用redisson客户端java位移运算实现多条件排名
3.1、由于时间戳按照正序排序所以先提交的要拍前面,说明分数要大一些。1、使用条件说明,由于一个分区有大概1万学生按照答题分数进行实时排名。附加题分数最大支持 1111111 = 2 + 4 + 8 + 16 + 32 + 64 + 128。3.2、附加题由于数量有限制分数最大不操过50分,给其分配7位。第三步、如果附加题的分数还相等则按照提交答案的时间戳正序排序。第二步、如果分数相等按照附加题的分数排序。分数 + 附加题分数 + 时间戳。第一步、按照分数排序。
2023-07-06 18:26:49 277
原创 记一次cloudera删除/var/lib/cloudera-host-monitor/ts/stream/日志导致无法重启问题
1、报错信息如下:日志目录/var/log/cloudera-scm-firehose/mgmt-cmf-mgmt-HOSTMONITOR-hadoop102.log.out。很明显就是因为删除的日志导致找不到文件。
2023-06-25 13:53:08 399
原创 扩展dlink-connector-phoenix使其phoenix-5.0.0支持flink1.16
目前我使用的是CDH6.3.2,flink使用的是1.6,Phoenix版本的是5.0.0这有在我的博客中提到过,hbase使用的是自带的2.x。这就遇到问题了目前有支持的比较好的是dlinky这个里面的插件,我现在需要做的是将dlink-connector-phoenix这个插件编译打包上传到flink的lib目录中使用sql-client进行测试。3、将dlink-connectors中的dlink-connector-phoenix-1.14拷贝一份到同级目录下面。mvn的仓库配置的是。
2023-06-01 17:50:32 1020
原创 编译flink1.6源码并打包成CDH6.3.2的parcel并且部署CDH6.3.2
10、将打包好的flink-1.16-SNAPSHOT-bin-scala_2.12.tgz放到flink-parcel目录下。14、FLINK-1.16-SNAPSHOT-BIN-SCALA_2.12_build文件夹中包含的文件。包名:flink-1.16-SNAPSHOT-bin-scala_2.12.tgz。7、打包parcel,建议在阿里云服务器上打包很快。9、修改flink-parcel.properties。3、修改flink目录下的pom.xml文件。4、修改setting.xml文件。
2023-05-22 18:08:50 1220 2
原创 【自定义debezium插件支持按照表名hash路由到同一个主题不同分区中】
自定义debezium插件支持按照表名hash路由到同一个主题不同分区中
2023-04-10 11:07:51 501
原创 CDH6.3.2引入debezium-connector-mysql-1.9.7监听mysql事件
首先说明一下为啥选用debezium,它能够根据事务的提交顺序向外推送数据,这一点非常重要。再有一个结合kafka集群能够保证高可用,对于熟悉java语言的朋友后面一篇博文会介绍怎样编写插件将事件自定义路由到你想要的主题甚至分区中。提高按顺序消费事件的并发能力。如果觉得好,请关注一下,后续将推出编写插件支持按照表名hash取模将事件分配到不同的主题或者分区当中支持多线程顺序并发消费,实现表与表之间的数据一致性
2023-04-10 10:22:00 532
原创 spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbase
spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbasehbase-connectors源码编译scala脚本测试hbase-connectorspyspark脚本测试hbase-connectors
2023-01-15 15:58:23 833
原创 pyspark结合hive使用 spark on hive方式开发代码附上代码实例
pyspark结合hive使用 spark on hive方式开发代码附上代码实例
2022-12-16 17:30:02 575
原创 spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例
spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例
2022-08-12 10:41:25 387
原创 spark报错:java.lang.String is not a valid external type for schema of bigint
spark报错:java.lang.String is not a valid external type for schema of bigint
2022-08-11 10:42:32 1400
原创 数据归一化处理
数据归一化1、最值归一化样本值 - 最小值 / (最大值 - 最小值)将所有数据映射到 0 - 1 之间 如果存在极值比如收入大部分人收入在1W 有些人收入在1000W2、均值方差(标准差)归一化样本值 - 均值 / 方差把所有数据归一到均值为0方差为1的分布中s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/nnp.var(x)作用:衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。标准层差:s = sqrt(s²)
2022-06-10 17:03:45 5466
phoenix5.0.0支持flink1.6包dlink-connector-phoenix-1.16-0.7.3
2023-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人