枪枪枪-CSDN博客

原创 RDS mysql 8.0.25 事务一直处于RUNNIG状态问题分析

2023-11-24 15:25:40 145

原创 mysql or 阿里云RDS 随记

结果，你可以了解 MySQL 是如何处理查询的，以及是否有效地使用了索引。是 MySQL 中的一个关键字，用于解释查询执行计划，帮助你理解查询是如何执行的以及使用了哪些索引。: 这是一个数字，表示查询中执行的序列号。命令后，MySQL 会返回一组结果，称为"执行计划"或"查询计划"，用于优化查询性能。: 表示表访问的方式，是一个重要的性能指标。: 表示索引使用的字节数。: 表示 MySQL 估计在执行查询时需要扫描的行数。: 显示查询涉及的分区，如果表使用了分区。: 表示查询可能使用的索引列表。

2023-07-20 10:47:21 306

原创关于Windows 11 docker desktop 运行doris 容器时vm.max_map_count=2000000的设置问题

需要一个简单的测试环境，于是准备用docker启动一个1fe 1be的简单玩一下。然后再重新运行be容器就可以正常启动，与FE的通信也正常。这个参数是没用的，be仍然会启动失败。如果be容器启动后再去修改。Ubuntu (默认)

2023-07-14 12:37:30 1909

原创主键分类复习

因此，在相同数据量下，数值类型的主键通常比字符串类型的主键具有更好的索引性能。而对于字符串类型的主键，由于字符串比较的特殊性，查询优化器可能无法进行一些优化，从而导致查询效率的降低。需要注意的是，具体的查询性能受多个因素的影响，包括数据量、索引设计、查询语句的复杂性等。但总体而言，在相同条件下，数值类型的主键通常比字符串类型的主键具有更好的查询效率。在MySQL中，字符串类型的主键和数值类型的主键，在均为唯一主键的情况下，查询效率可能会有差异。面向ChatGPT学习.jpg 😂。

2023-07-06 11:33:47 264

原创关于Zlibrary

听说这个网站又开了，一开始找到了https://z-lib.is/register这个网站，结果进去注册了一看，不交钱不让下载，感觉不对劲，又是一番查找，找到了https://1lib.sk/这个站点，进去查看了下，书籍可以正常查看和下载，顺便首页就有公告。

2023-06-25 10:42:29 1059

原创一个python的mysql连接池工具类

【代码】一个python的mysql连接池工具类。

2023-04-19 18:03:23 184 1

原创 python flask 接口平台开发

用过java swagger的话，理解这个就很快了，在代码中编写好接口文档，就可以在http://localhost:5000/apidocs上浏览接口文档，同时可以进行简单的接口测试。考虑到开发的便捷性、生态的丰富程度，用Flask、Flask-SQLAlchemy、flasgger等编写一套简单易用的接口平台。响应的数据结构遵循Palette定义（$ref: ‘#/definitions/Palette’）。我这里用的是在代码中添加文档模板的方式去记录接口文档。用官方文档中的示例进行分析，

2023-04-17 15:23:40 813

原创用ChatGPT总结Doris中Join的多种实现

提问的艺术，更智能的搜索引擎？

2023-03-26 22:29:38 216

原创 Kettle 9.1.0.0-325 对称加密组件源码流程解析

Kettle 9.1.0.0-325 对称加密组件源码流程解析

2023-03-04 13:13:52 560

原创 [2023年2月24日] 关于MapReduce的过程拆解

mapreduce流程拆解

2023-02-24 20:07:47 123

原创 [2023年2月24日]关于 Spark Shuffle

Spark Shuffle过程记录

2023-02-24 17:38:02 120

原创 Flink Checkpoint 中的通用增量Checkpoint

通用增量Checkpoint

2023-02-16 23:38:41 510

原创 Flink Checkpoint 中的Aligned Checkpoint 和 Unaligned Checkpoint

Aligned Checkpoint 和 Unaligned Checkpoint

2023-02-15 22:47:53 833

原创 Flink CDC 原理

通过数据库本身的触发器（Trigger）或者日志（例如Binary log、Transaction log、Write-ahead log等）媒介将数据变化记录下来，外部系统通过数据库底层的协议，订阅并消费这些事件，然后对数据库变动记录做重放，从而实现数据同步。用户通常会在数据原表中的某个字段中，保存上次更新的时间戳或版本号等信息，然后下游通过不断的查询和上次的记录做对比，来确定数据是否有变动，是否需要同步变化数据。目前CDC有两种实现方式，一种是主动查询、一种是事件接收。随后再更新(ง •_•)ง。

2023-01-19 22:04:32 2081

原创记一次Docker desktop 无法启用WSL 2 based engine

某次win11 系统更新后，docker desktop无法使用，查找资料后有说关闭WSL 2 based engine可以解决问题，于是我在设置中先取消勾选，docker desktop是可以正常启动了，但是发现之前使用的容器全部都没有了，当我想要在原有的data路径上重新创建一个postgresql容器时确发现，容器无法启动，提示说FATAL: data directory “/var/lib/postgresql/data” has invalid permissions，这个问题我搜了一下，

2023-01-18 14:08:43 1470

原创 Doris 使用记录（随机更新(ง •_•)ง）

列表：List，直接基于离散的各个取值做数据分布，性别、省份等数据就满足这种离散的特性。每个离散值会映射到一个节点上，多个不同的取值可能也会映射到相同节点上。建表之后可以看到动态分区已经创建，因为dynamic_partition.end设置的是3，所以会自动创建后三天的分区（执行语句时间为：2023年1月16日）轮询：Round-Robin，假设分桶数为3，数据按顺序依次写入桶1、桶2、桶3，然后继续循环。区间：Range，假设分桶数为2，对数据划分范围，在范围1的写入到桶1；在范围2的写入到桶2。

2023-01-16 22:35:29 559

原创 flink on yarn

Yarn Session 启动成功后，会创建一个/tmp/.yarn-properties-root文件，记录最近一次提交到 Yarn 的 Application ID，执行以下命令启动 SQL 客户端命令行界面，后续指定的 Flink SQL 会提交到之前启动的 Yarn Session Application。作业执行的顺序不受部署模式的影响，但是会受启动作业的调用方式影响。为每一个应用启动一个集群，应用运行在JM上（由JM来执行应用中的main()方法），应用结束，集群关闭。

2022-12-14 17:15:07 2502

原创 kubernets 实践

apiserver-advertise-address：这个填DNS名称或者用来做负载均衡的机器的ip，因为我没有额外的机器作这个，所以填的是master节点ip。临时解决方法，在启动flink时用kubernetes.container.image参数指定容器镜像，就可以正常启动Flink集群。如果后面初始化失败，然后提示kubelet状态有问题，那么就需要检查上面列的两个选项，看有没填错。kubeadm init的可选参数别设置错，特别是和ip相关的。创建serviceaccount。

2022-12-09 18:46:16 1055

原创 Spark 3.3.1 、Spark excel 3.3.1_0.18.5 读取excel异常：org.apache.poi.util.RecordFormatException:

解决方法：IOUtils.setByteArrayMaxOverride(200000000)

2022-11-11 17:24:14 3430

原创 java 不同的打包方式，获取数据库链接时一个成功一个失败

当将项目代码和依赖独立打包时，项目代码内DriverManager.getConnection(url, connectionProperties)可以正常获取数据库链接。参考链接：https://stackoverflow.com/questions/5130254/java-error-no-suitable-driver-found。不清楚为什么使用maven-shade-plugin打到一个jar包中会导致程序找不到postgresql的驱动对象。在检查并更换数据库url后发现问题并未解决。

2022-09-09 18:25:51 493

原创记一次 mapreduce 加载HFile文件到HBase中

code:编译打包后放到服务器上用java -classpath XXX.jar XXX.BulkLoadDataToHBase /path outPutTabel运行程序前需要先在HBase中建好表此时运行会出现报错错误原因是程序运行时无法找到libsnappy.so.*相关的文件，检查了一遍程序中打包的依赖,发现可以找到对应的类在google上搜索了后发现，有人建议在运行jar时添加-Djava.library.path=/XXX/hadoop/native/选项后，解决了问题。于是在服务器上

2022-06-30 18:35:50 820

原创记一次 mac电脑 parallels desktop win10 虚拟机配置rsync文件同步功能（含mac 无法读写ntfs移动硬盘的解决方法）

mac store中搜索Omi NTFS磁盘管理工具，安装rsync server端和client端。这个链接里面下载的压缩包里都有https://www.cr173.com/soft/110806.htmlserver 端的安装可以参照这篇博客https://blog.csdn.net/sinat_27747695/article/details/114098005client端安装一直点击下一步就可以了，安装完成后把exe文件配置到环境变量里，就可以在cmd中调用rsync命令停止windows

2022-06-28 11:09:23 2164

原创 spring boot 2.x + spring websocket + thymeleaf + echarts 实现实时更新进度条

文章目录需求大致如下：代码部分如下：后端代码如下：前端代码如下：最终效果如下总结过程比较曲折，在网上查了不少的案例，但是大多数实际用起来并不太符合所想的要求。需求大致如下：1.后端实时推送数据到前端，前端实时更新数据要满足后端实时推送数据这个要求，就不能使用http方式，因为在http方式下需要浏览器向服务端主动发起请求，然后建立连接，服务端返回数据给浏览器。于是便准备使用websocket方式建立一个接口，浏览器和服务端建立连接后，通过请求这个接口便可以不断的活动服务器推送的数据。websoc

2022-05-26 22:03:24 1501 1

原创记一次spark 3.2.1 + springboot2.4.1，SparkSQL调用错误

错误信息：java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerException问题原因：https://blog.csdn.net/u011039332/article/details/112104344可以看到项目的外部依赖中org.codehaus.janino：commons-compilerorg.codehaus.janino：janino有两个版本，其中springboot自带的版本为3.1.2

2022-05-24 11:51:57 546

原创 spark dataframe 将每一列中的空字符(或其它值)替换成null

var offlineData: DataFrame = ......val offlineDataFieldName: Array[String] = offlineData.schema.names (0 until offlineDataFieldName.length).foreach(idx => { offlineData = offlineData.withColumn( offlineDataFieldName.apply(idx)

2022-04-27 10:50:06 2973

原创 Win11 连接不上NAS

nas用的威联通，版本5.0.0.1932确定路由器、网线都是正常的。nas一开始正常，在某一时刻突然连接不上，尝试了其它操作无效后，在某个帖子中看到可以在网络中打开一下网络共享，然后我试着操作了一下，nas就可以正常连接了。目前遇到3、4此nas连不上都是用的这个方法步骤如下这里要选择和nas处于同一网段下的网络如果已经是开启状态，就关闭然后重新打开没想明白其中的原理是什么？难道在网络中自动发现设备这个功能在win11或nas上出了bug？...

2022-03-30 09:38:32 5378

原创 Doris ODBC外表使用

文章目录PostgreSQL参考资料开始：配置ODBC驱动安装Postgresql ODBC驱动postgresql实现mysql中的show create table XXXPostgreSQLDoris Version:Baidu Palo 0.15.1参考资料Apache Doris ODBC外表之Postgresql使用指南https://zhuanlan.zhihu.com/p/452442524Linux/Unix ODBC的原理、安装、配置和编程http://blog.china

2022-03-28 17:07:52 2341

原创记一次docker 离线安装zabbix6.0

官方文档：https://www.zabbix.com/documentation/current/en/manual/installation/containers注意一下版本的选择docker hubhttps://registry.hub.docker.com/r/zabbix/zabbix-agent下载容器镜像到本地docker pull mysql:8.0docker save -o ./mysql80.zip mysql:8.0docker pull zabbix/zabb

2022-03-03 18:04:52 3900 1

原创 maven scala java 混合项目编译、打包（jar包）、运行

文章目录说明java相关的插件scala相关的插件maven命令打包创建项目分别指定java和scala的source root路径编辑pom文件执行命令运行jaridea打包参考资料说明一开始用的是在idea中打包的方式，但是在更新项目结构或是更新以来后，需要手动的去修改原来的配置，不是很方便。于是查找资料看下用maven命令如何打包java相关的插件java代码编译与打包，我参考了这篇文章的内容，介绍的很详细：https://blog.csdn.net/dyq51/article/details

2022-02-24 15:50:22 7228 1

原创 log4j1.x、log4j2.x日志输出到数据库（clickhouse、mysql）、文件

文章目录log4j 1.x参考资料log4j 2.x参考资料log4j 1.x在pom中加入log4j1.x的依赖和数据库jdbc依赖 <dependency> <groupId>com.clickhouse</groupId> <arti

2022-02-17 16:19:22 1224

原创 spark解析复杂json，json内结构为主表嵌套多个从表，每个从表中又嵌套表，嵌套层级有的在5次以上。Array嵌套Array、每条json的字段数量不一定。。。。

这个json字符串很长，结构也很复杂，手工构造struct的话不太现实开始一开始按如下的方式对数据进行解析zip文件–》RDD–〉spark.read.json(dataRDD)–〉DataFrame通过spark.sql(…,key1.key2.key3,…)可以取到[key1.key2.key3]下的值但是这个方法有个缺点，对于Array类型的节点，只能取一次，无法循环获取Array内的所有元素于是准备借助其它json包对RDD内的jsonString进行解析，然后对Array类型.

2022-02-16 15:52:25 1022

原创 [scala、spark]将MYSQL中某个表内某个条件下的数据合并到一个JSON对象中进行输出

原表中的数据分为7个类别，类别字段名称为：vehicle_type；每个类别下有若干的元素，每个类别下元素个数相同，这些元素存于一列中，列名为name_en，列内的值为元素的名称；每个元素有相同的名称的属性若干，每个属性名称作为一列；现在想要将一个类别下的元素、属性收集到一个JSON中结构如下：{ "元素名称1":{ "属性名称":"属性值" }, "元素名称1":{ "属性名称":"属性值" }, "元素名称1":{ "属性名称":"属性值" }, .... }.

2022-01-07 18:29:38 1260

原创 spark 当dataframe中某一行的某一列存在null值时用get(i)索引触发NullPointException

这是从Dataframe中获取的一行可以看到遍历到null值时触发异常解决方法：对DataFrame使用.na.fill("")将null值替换为空字符

2022-01-07 14:59:56 853

原创关于从spark dataframe中获取某列下的数据时，数据类型不唯一时的处理方式

val range_p = df.select(col(s"${x}").getField("range")).collect.apply(0).foreach(println)获取的数据样式如下[WrappedArray(0, 10000)]…[WrappedArray(0.5, 2.0)]…WrappedArray里面的数据被自动解析成了Long、Double类型我想把数据转成Float类型，于是用.getAs[mutable.WrappedArray[Float]](0)去解析其中的数据

2022-01-06 17:36:29 1481

原创 Spark 在一个sparksession中并行的执行多个Job

对程序中设计的DataFrame、DataSet，将其分区数修改到一个合适的值，我这里用的是：当前环境下可用的CPU核数/并行数量。使用Callable或Runable类，重写类中的call方法或run方法，将要执行的job放入call或run方法中提交。在这个情景下，采取并行的方式同时处理n（假设n=5）个文件，能够更有效的利用服务器的资源。有两个独立的job A和B可以并行执行，按spark默认的方式A和B是顺序执行的。现有一个文件名构成的列表，要对列表内的文件进行一系列的处理后将数据写入数据库。

2021-12-29 16:39:09 3954 3

原创 spark udf 出现java.lang.UnsupportedOperationException: Schema for type AnyVal is not supported

Exception in thread "main" java.lang.UnsupportedOperationException: Schema for type AnyVal is not supported at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$schemaFor$1.apply(ScalaReflection.scala:790) at org.apache.spark.sql.catalyst.ScalaRefle

2021-12-24 10:56:31 2027

空空如也

空空如也