自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

枪枪枪的博客

见贤思齐焉,见不贤而内自省也。 君子生非异也,善假于物也。君子博学而日参省乎己,则知明而行无过矣。

  • 博客(321)
  • 收藏
  • 关注

原创 RDS mysql 8.0.25 事务一直处于RUNNIG状态问题分析

2023-11-24 15:25:40 145

原创 mysql or 阿里云RDS 随记

结果,你可以了解 MySQL 是如何处理查询的,以及是否有效地使用了索引。是 MySQL 中的一个关键字,用于解释查询执行计划,帮助你理解查询是如何执行的以及使用了哪些索引。: 这是一个数字,表示查询中执行的序列号。命令后,MySQL 会返回一组结果,称为"执行计划"或"查询计划",用于优化查询性能。: 表示表访问的方式,是一个重要的性能指标。: 表示索引使用的字节数。: 表示 MySQL 估计在执行查询时需要扫描的行数。: 显示查询涉及的分区,如果表使用了分区。: 表示查询可能使用的索引列表。

2023-07-20 10:47:21 306

原创 关于Windows 11 docker desktop 运行doris 容器时vm.max_map_count=2000000的设置问题

需要一个简单的测试环境,于是准备用docker启动一个1fe 1be的简单玩一下。然后再重新运行be容器就可以正常启动,与FE的通信也正常。这个参数是没用的,be仍然会启动失败。如果be容器启动后再去修改。Ubuntu (默认)

2023-07-14 12:37:30 1909

原创 主键分类复习

因此,在相同数据量下,数值类型的主键通常比字符串类型的主键具有更好的索引性能。而对于字符串类型的主键,由于字符串比较的特殊性,查询优化器可能无法进行一些优化,从而导致查询效率的降低。需要注意的是,具体的查询性能受多个因素的影响,包括数据量、索引设计、查询语句的复杂性等。但总体而言,在相同条件下,数值类型的主键通常比字符串类型的主键具有更好的查询效率。在MySQL中,字符串类型的主键和数值类型的主键,在均为唯一主键的情况下,查询效率可能会有差异。面向ChatGPT学习.jpg 😂。

2023-07-06 11:33:47 264

原创 关于Zlibrary

听说这个网站又开了,一开始找到了https://z-lib.is/register这个网站,结果进去注册了一看,不交钱不让下载,感觉不对劲,又是一番查找,找到了https://1lib.sk/这个站点,进去查看了下,书籍可以正常查看和下载,顺便首页就有公告。

2023-06-25 10:42:29 1059

原创 一个python的mysql连接池工具类

【代码】一个python的mysql连接池工具类。

2023-04-19 18:03:23 184 1

原创 python flask 接口平台开发

用过java swagger的话,理解这个就很快了,在代码中编写好接口文档,就可以在http://localhost:5000/apidocs上浏览接口文档,同时可以进行简单的接口测试。考虑到开发的便捷性、生态的丰富程度,用Flask、Flask-SQLAlchemy、flasgger等编写一套简单易用的接口平台。响应的数据结构遵循Palette定义($ref: ‘#/definitions/Palette’)。我这里用的是在代码中添加文档模板的方式去记录接口文档。用官方文档中的示例进行分析,

2023-04-17 15:23:40 813

原创 用ChatGPT总结Doris中Join的多种实现

提问的艺术,更智能的搜索引擎?

2023-03-26 22:29:38 216

原创 Kettle 9.1.0.0-325 对称加密组件源码流程解析

Kettle 9.1.0.0-325 对称加密组件源码流程解析

2023-03-04 13:13:52 560

原创 [2023年2月24日] 关于MapReduce的过程拆解

mapreduce流程拆解

2023-02-24 20:07:47 123

原创 [2023年2月24日]关于 Spark Shuffle

Spark Shuffle过程记录

2023-02-24 17:38:02 120

原创 Flink Checkpoint 中的通用增量Checkpoint

通用增量Checkpoint

2023-02-16 23:38:41 510

原创 Flink Checkpoint 中的Aligned Checkpoint 和 Unaligned Checkpoint

Aligned Checkpoint 和 Unaligned Checkpoint

2023-02-15 22:47:53 833

原创 Flink CDC 原理

通过数据库本身的触发器(Trigger)或者日志(例如Binary log、Transaction log、Write-ahead log等)媒介将数据变化记录下来,外部系统通过数据库底层的协议,订阅并消费这些事件,然后对数据库变动记录做重放,从而实现数据同步。用户通常会在数据原表中的某个字段中,保存上次更新的时间戳或版本号等信息,然后下游通过不断的查询和上次的记录做对比,来确定数据是否有变动,是否需要同步变化数据。目前CDC有两种实现方式,一种是主动查询、一种是事件接收。随后再更新(ง •_•)ง。

2023-01-19 22:04:32 2081

原创 记一次Docker desktop 无法启用WSL 2 based engine

某次win11 系统更新后,docker desktop无法使用,查找资料后有说关闭WSL 2 based engine可以解决问题,于是我在设置中先取消勾选,docker desktop是可以正常启动了,但是发现之前使用的容器全部都没有了,当我想要在原有的data路径上重新创建一个postgresql容器时确发现,容器无法启动,提示说FATAL: data directory “/var/lib/postgresql/data” has invalid permissions,这个问题我搜了一下,

2023-01-18 14:08:43 1470

原创 Doris 使用记录(随机更新(ง •_•)ง)

列表:List,直接基于离散的各个取值做数据分布,性别、省份等数据就满足这种离散的特性。每个离散值会映射到一个节点上,多个不同的取值可能也会映射到相同节点上。建表之后可以看到动态分区已经创建,因为dynamic_partition.end设置的是3,所以会自动创建后三天的分区(执行语句时间为:2023年1月16日)轮询:Round-Robin,假设分桶数为3,数据按顺序依次写入桶1、桶2、桶3,然后继续循环。区间:Range,假设分桶数为2,对数据划分范围,在范围1的写入到桶1;在范围2的写入到桶2。

2023-01-16 22:35:29 559

原创 flink on yarn

Yarn Session 启动成功后,会创建一个/tmp/.yarn-properties-root文件,记录最近一次提交到 Yarn 的 Application ID,执行以下命令启动 SQL 客户端命令行界面,后续指定的 Flink SQL 会提交到之前启动的 Yarn Session Application。作业执行的顺序不受部署模式的影响,但是会受启动作业的调用方式影响。为每一个应用启动一个集群,应用运行在JM上(由JM来执行应用中的main()方法),应用结束,集群关闭。

2022-12-14 17:15:07 2502

原创 kubernets 实践

apiserver-advertise-address:这个填DNS名称或者用来做负载均衡的机器的ip,因为我没有额外的机器作这个,所以填的是master节点ip。临时解决方法,在启动flink时用kubernetes.container.image参数指定容器镜像,就可以正常启动Flink集群。如果后面初始化失败,然后提示kubelet状态有问题,那么就需要检查上面列的两个选项,看有没填错。kubeadm init的可选参数别设置错,特别是和ip相关的。创建serviceaccount。

2022-12-09 18:46:16 1055

原创 Spark 3.3.1 、Spark excel 3.3.1_0.18.5 读取excel异常:org.apache.poi.util.RecordFormatException:

解决方法:IOUtils.setByteArrayMaxOverride(200000000)

2022-11-11 17:24:14 3430

原创 java 不同的打包方式,获取数据库链接时一个成功一个失败

当将项目代码和依赖独立打包时,项目代码内DriverManager.getConnection(url, connectionProperties)可以正常获取数据库链接。参考链接:https://stackoverflow.com/questions/5130254/java-error-no-suitable-driver-found。不清楚为什么使用maven-shade-plugin打到一个jar包中会导致程序找不到postgresql的驱动对象。在检查并更换数据库url后发现问题并未解决。

2022-09-09 18:25:51 493

原创 记一次 mapreduce 加载HFile文件到HBase中

code:编译打包后放到服务器上用java -classpath XXX.jar XXX.BulkLoadDataToHBase /path outPutTabel运行程序前需要先在HBase中建好表此时运行会出现报错错误原因是程序运行时无法找到libsnappy.so.*相关的文件,检查了一遍程序中打包的依赖,发现可以找到对应的类在google上搜索了后发现,有人建议在运行jar时添加-Djava.library.path=/XXX/hadoop/native/选项后,解决了问题。于是在服务器上

2022-06-30 18:35:50 820

原创 记一次 mac电脑 parallels desktop win10 虚拟机配置rsync文件同步功能(含mac 无法读写ntfs移动硬盘的解决方法)

mac store中搜索Omi NTFS磁盘管理工具,安装rsync server端和client端。这个链接里面下载的压缩包里都有https://www.cr173.com/soft/110806.htmlserver 端的安装可以参照这篇博客https://blog.csdn.net/sinat_27747695/article/details/114098005client端安装一直点击下一步就可以了,安装完成后把exe文件配置到环境变量里,就可以在cmd中调用rsync命令停止windows

2022-06-28 11:09:23 2164

原创 spring boot 2.x + spring websocket + thymeleaf + echarts 实现实时更新进度条

文章目录需求大致如下:代码部分如下:后端代码如下:前端代码如下:最终效果如下总结过程比较曲折,在网上查了不少的案例,但是大多数实际用起来并不太符合所想的要求。需求大致如下:1.后端实时推送数据到前端,前端实时更新数据要满足后端实时推送数据这个要求,就不能使用http方式,因为在http方式下需要浏览器向服务端主动发起请求,然后建立连接,服务端返回数据给浏览器。于是便准备使用websocket方式建立一个接口,浏览器和服务端建立连接后,通过请求这个接口便可以不断的活动服务器推送的数据。websoc

2022-05-26 22:03:24 1501 1

原创 记一次spark 3.2.1 + springboot2.4.1,SparkSQL调用错误

错误信息:java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerException问题原因:https://blog.csdn.net/u011039332/article/details/112104344可以看到项目的外部依赖中org.codehaus.janino:commons-compilerorg.codehaus.janino:janino有两个版本,其中springboot自带的版本为3.1.2

2022-05-24 11:51:57 546

原创 spark dataframe 将每一列中的空字符(或其它值)替换成null

var offlineData: DataFrame = ......val offlineDataFieldName: Array[String] = offlineData.schema.names (0 until offlineDataFieldName.length).foreach(idx => { offlineData = offlineData.withColumn( offlineDataFieldName.apply(idx)

2022-04-27 10:50:06 2973

原创 Win11 连接不上NAS

nas用的威联通,版本5.0.0.1932确定路由器、网线都是正常的。nas一开始正常,在某一时刻突然连接不上,尝试了其它操作无效后,在某个帖子中看到可以在网络中打开一下网络共享,然后我试着操作了一下,nas就可以正常连接了。目前遇到3、4此nas连不上都是用的这个方法步骤如下这里要选择和nas处于同一网段下的网络如果已经是开启状态,就关闭然后重新打开没想明白其中的原理是什么?难道在网络中自动发现设备这个功能在win11或nas上出了bug?...

2022-03-30 09:38:32 5378

原创 Doris ODBC外表使用

文章目录PostgreSQL参考资料开始:配置ODBC驱动安装Postgresql ODBC驱动postgresql实现mysql中的show create table XXXPostgreSQLDoris Version:Baidu Palo 0.15.1参考资料Apache Doris ODBC外表之Postgresql使用指南https://zhuanlan.zhihu.com/p/452442524Linux/Unix ODBC的原理、安装、配置和编程http://blog.china

2022-03-28 17:07:52 2341

原创 记一次docker 离线安装zabbix6.0

官方文档:https://www.zabbix.com/documentation/current/en/manual/installation/containers注意一下版本的选择docker hubhttps://registry.hub.docker.com/r/zabbix/zabbix-agent下载容器镜像到本地docker pull mysql:8.0docker save -o ./mysql80.zip mysql:8.0docker pull zabbix/zabb

2022-03-03 18:04:52 3900 1

原创 maven scala java 混合项目编译、打包(jar包)、运行

文章目录说明java相关的插件scala相关的插件maven命令打包创建项目分别指定java和scala的source root路径编辑pom文件执行命令运行jaridea打包参考资料说明一开始用的是在idea中打包的方式,但是在更新项目结构或是更新以来后,需要手动的去修改原来的配置,不是很方便。于是查找资料看下用maven命令如何打包java相关的插件java代码编译与打包,我参考了这篇文章的内容,介绍的很详细:https://blog.csdn.net/dyq51/article/details

2022-02-24 15:50:22 7228 1

原创 log4j1.x、log4j2.x日志输出到数据库(clickhouse、mysql)、文件

文章目录log4j 1.x参考资料log4j 2.x参考资料log4j 1.x在pom中加入log4j1.x的依赖和数据库jdbc依赖<!-- https://mvnrepository.com/artifact/com.clickhouse/clickhouse-jdbc --> <dependency> <groupId>com.clickhouse</groupId> <arti

2022-02-17 16:19:22 1224

原创 spark解析复杂json,json内结构为主表嵌套多个从表,每个从表中又嵌套表,嵌套层级有的在5次以上。Array嵌套Array、每条json的字段数量不一定。。。。

这个json字符串很长,结构也很复杂,手工构造struct的话不太现实开始一开始按如下的方式对数据进行解析zip文件–》RDD–〉spark.read.json(dataRDD)–〉DataFrame通过spark.sql(…,key1.key2.key3,…)可以取到[key1.key2.key3]下的值但是这个方法有个缺点,对于Array类型的节点,只能取一次,无法循环获取Array内的所有元素于是准备借助其它json包对RDD内的jsonString进行解析,然后对Array类型.

2022-02-16 15:52:25 1022

原创 [scala、spark]将MYSQL中某个表内某个条件下的数据合并到一个JSON对象中进行输出

原表中的数据分为7个类别,类别字段名称为:vehicle_type;每个类别下有若干的元素,每个类别下元素个数相同,这些元素存于一列中,列名为name_en,列内的值为元素的名称;每个元素有相同的名称的属性若干,每个属性名称作为一列;现在想要将一个类别下的元素、属性收集到一个JSON中结构如下:{ "元素名称1":{ "属性名称":"属性值" }, "元素名称1":{ "属性名称":"属性值" }, "元素名称1":{ "属性名称":"属性值" }, .... }.

2022-01-07 18:29:38 1260

原创 spark 当dataframe中某一行的某一列存在null值时用get(i)索引触发NullPointException

这是从Dataframe中获取的一行可以看到遍历到null值时触发异常解决方法:对DataFrame使用.na.fill("")将null值替换为空字符

2022-01-07 14:59:56 853

原创 关于从spark dataframe中获取某列下的数据时,数据类型不唯一时的处理方式

val range_p = df.select(col(s"${x}").getField("range")).collect.apply(0).foreach(println)获取的数据样式如下[WrappedArray(0, 10000)]…[WrappedArray(0.5, 2.0)]…WrappedArray里面的数据被自动解析成了Long、Double类型我想把数据转成Float类型,于是用.getAs[mutable.WrappedArray[Float]](0)去解析其中的数据

2022-01-06 17:36:29 1481

原创 Spark 在一个sparksession中并行的执行多个Job

对程序中设计的DataFrame、DataSet,将其分区数修改到一个合适的值,我这里用的是:当前环境下可用的CPU核数/并行数量。使用Callable或Runable类,重写类中的call方法或run方法,将要执行的job放入call或run方法中提交。在这个情景下,采取并行的方式同时处理n(假设n=5)个文件,能够更有效的利用服务器的资源。有两个独立的job A和B可以并行执行,按spark默认的方式A和B是顺序执行的。现有一个文件名构成的列表,要对列表内的文件进行一系列的处理后将数据写入数据库。

2021-12-29 16:39:09 3954 3

原创 spark udf 出现java.lang.UnsupportedOperationException: Schema for type AnyVal is not supported

Exception in thread "main" java.lang.UnsupportedOperationException: Schema for type AnyVal is not supported at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$schemaFor$1.apply(ScalaReflection.scala:790) at org.apache.spark.sql.catalyst.ScalaRefle

2021-12-24 10:56:31 2027

原创 Spark SQL RDD或DataFrame 行转列、列转行

【代码】Spark SQL RDD或DataFrame 行转列、列转行。

2021-12-24 10:53:11 2150

原创 [Scala] Spark将RDD中某一列下的数组拆分成多列

val data: RDD[String]val data2 = data.map(x => { val y = x.split("\\|\\|", -1) y })val data3 = data2.toDF()data3.show(10)+--------------------+| value|+--------------------+|[66,................]||[81,...........

2021-12-21 17:09:53 2385

原创 Scala Spark输出文件重命名

有时测试需要单独生成1个文件后拿出来看看内容,spark自动生成的块文件名不好说明文件用途源文件修改后package myspark.coreimport java.io.Fileimport scala.reflect.io.Directoryobject getFile{ def main(args: Array[String]): Unit = { val testPath="C:\\output\\testJSON" renameFiles(testPath,

2021-12-03 18:31:42 683

原创 本地运行jar包时指定main函数并传入参数

java -classpath /root/com.bigdata.jar myspark.warehouse.DataParsing “参数1” “参数2” “参数3”若是已经在META-INF中指定好了main函数入口,可直接使用java -jar /root/com.bigdata.jar “参数1” “参数2” “参数3”来运行...

2021-12-02 17:58:09 4366

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除