沐霜枫叶-CSDN博客

原创 python读取mongodb数据生成json文件迁移到hive

【代码】python读取mongodb数据生成json文件迁移到hive。

2025-02-25 11:59:27 121

原创 Flink三种集群部署模型

在 Flink Job 集群中，可用的集群管理器（例如 YARN）用于为每个提交的作业启动一个集群，并且该集群仅可用于该作业。Flink 应用程序的作业可以被提交到长期运行的 Flink Session 集群、专用的 Flink Job 集群或 Flink Application 集群。在 Flink Application 集群中，ResourceManager 和 Dispatcher 作用于单个的 Flink 应用程序，相比于 Flink Session 集群，它提供了更好的隔离。

2025-01-07 10:22:25 1212

原创 elasticsearch词频统计

termvector会获取document中的某个field内的各个term的统计信息。统计文档某个字段的，各个分词的数量。ES 比较简单的处理方式为。

2025-01-07 10:10:19 202

原创 Flink CDC 自定义函数处理 SQLServer XML类型数据映射 doris json字段方案

因业务使用SQLServer数据库，CDC同步到doris 数仓。对于SQLServer xml类型，doris没有响应的字段对应，可以使用json来存储xml数据。需要进行一步转换。从 flink 自定义函数入手。

2024-12-31 16:31:08 1026

原创 doris集群存储目录切换

3节点集群，BE存储目录，因为运维原因。存储盘系统放在了一一起。3节点集群，如果各个表都是3副本，可以实现轮流停机，方式处理。但是业务方使用并不规范，存在某些表单副本情况。需要增加硬盘，并替换原有目录。

2024-12-28 13:36:40 295

原创解决pycharm无法识别miniconda

选中 conda.bat 点击 Load Enviroments。

2024-12-25 11:38:54 745

原创安全多方计算 - 隐私求交 PSI 的实现协议

广告投放转化率：广告商在商业平台上投放了广告，希望能确认有哪些商业客户是通过广告来消费的（即广告转化率），但商业机构的到店消费数据也很保密，所以需要隐私求交实现；已泄露密码检索：google、微软都提供过已泄露的用户名/密码检索库，但作为检索个人来说，不希望把密码直接提供给google、微软，而且也不想在检索过程中留痕。市场领域确定：两家势均力敌的企业，都想扩大自己的市场领域，但又不能占据对方的，所以想试探性确认下某些地域是否已被对方拿下；保护隐私的数据检索（PIR的典型应用）

2024-12-24 16:58:59 423

原创 fastchat vllm qwen2.5推理部署

【代码】fastchat vllm qwen2.5推理部署。

2024-12-23 17:46:03 349

原创 GPU环境配置

可根据自己显卡版本选择合适的CUDA版本，查询链接：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html。不同型号的显卡请到英伟达官网查找下载链接：https://www.nvidia.cn/Download/Find.aspx?注意这里要按 Enter 取消勾选第一个选项,因为之前已经安装了驱动。安装的显卡驱动版本是550.100，可以安装CUDA 12版本。上面使用的是4090版本的，对应的驱动版本为550.100。

2024-12-23 17:03:45 452

原创 Anaconda卸载 miniconda安装删除官方源

【代码】Anaconda卸载 miniconda安装删除官方源。

2024-12-23 16:26:14 680

原创 conda 安装

pip3 install -r requirements_linux.txt --extra-index-url https://download.pytorch.org/whl/cu121 -i https://pypi.mirrors.ustc.edu.cn/simple/

2024-12-11 11:40:24 156

原创 SqlServer Doris Flink SQL 类型映射关系

SqlServer 对应 Flink SQL 数据类型映射关系SQL Server TypeFlink SQL Typechar(n)CHAR(n)varchar(n)VARCHAR(n)nvarchar(n)VARCHAR(n)nchar(n)VARCHAR(n)textSTRINGntextSTRINGxmlSTRINGdecimal(p, s)DECIMAL(p, s)moneyDECIMAL(p, s)sm

2024-12-10 17:15:06 706

原创大宗商品行业区块链应用

区块链技术的核心优势在于其透明性、去中心化和不可篡改的特性，这使得其在大宗商品定价中的应用具有显著的潜力。通过智能合约、去中心化数据共享、供应链追溯等方式，区块链能够提供更加公正、透明和高效的定价体系，降低市场操控和信息不对称的风险。同时，区块链技术也为跨境支付和金融产品定价提供了更加灵活和便捷的解决方案。区块链在大宗商品定价中的应用前景广阔，但仍面临技术复杂性、法律监管、隐私保护等方面的瓶颈。尽管如此，已有一些成功的案例展示了区块链技术在提高透明度、效率和减少交易成本方面的优势。

2024-11-23 14:30:40 788

原创 Microsoft 分布式事务协调器 (MSDTC)

https://www.modb.pro/db/1696337236493160448

2024-11-22 15:38:32 234

原创 Flink 命令行异常 `java.lang.NoSuchMethodError: org.apache.commons.cli.CommandLine.hasOption` 解决

1、apache commons cli 库的版本有问题，主要是因为可能引入了其他的jar包，到 /lib 目录。另外也要检查一下自己的项目是否引入了，将相关版本排除掉即可。

2024-11-18 17:04:39 500

原创 flink cdc 应用

遇到了一下问题，多次尝试，最终发现是数据库大小写要一致。

2024-11-15 09:38:39 835 1

原创 Systemctl 管理 MinIO 服务器的启动和停止

【代码】Systemctl 管理 MinIO 服务器的启动和停止。

2024-10-14 13:58:12 710 2

原创 metabase域账号登录过期处理

2、修改元数据表 setting 表，ldap-password 字段，改字段明文存储。过期后，无法登录无法修改密码，如何处理。1、从域控将密码改回原来的（麻烦）metabase域账号过期。

2024-10-14 08:58:00 252

原创使用 SageMaker 对 Whisper 模型进行微调及部署

Whisper 作为 OpenAI 最新开源的自动语音识别（ASR）模型，采用了编码器-解码器（encoder- decoder）transformer架构，并使用了 68 万小时的从互联网收集的多语言、多任务的已标注数据进行训练。根据其论文显示，Whisper 模型在无需微调（zero-shot）的情况下，在多个数据集的测试上鲁棒性更高，错误率更低。关于 Whisper 模型的更多细节，参见其官方网站以及。

2023-11-14 17:15:00 1089 1

原创 RestTemplate直接发送内存文件对象multipart

然后，构建一个由字节数组和其他信息（如原始文件名和媒体类型）组成的资源对象，用于作为 HTTP 请求的一部分。

2023-10-14 13:42:47 2138 1

原创 mysql 官方文档

https://dev.mysql.com/doc/

2023-09-13 09:40:18 309

原创 int(11)在MySQL中意味着什么?

默认情况下，每种整数类型的数量与该类型的最大负值中的字符数相同。同样，对于 BIGINT，默认显示宽度是 20，它等于最大负 BIGINT 中的字符数 (-9223372036854775808)。应用程序可以获取元数据以获取列的显示宽度，然后将其用于设置列的宽度或显示列中的数字等。关于int(11)在MySQL中的含义，一个非常常见的误解是，该列可以存储长度为11位的最大整数值。11是整型列的显示宽度，与字符列不同，其中数字表示可以存储的字符数。对于整数类型的列，括号中的数字称为字段的显示宽度。

2023-09-13 09:29:28 2547

转载深入理解Prometheus rate irate increase

因此，在用计数器绘制图形或做任何其他事情之前，您通常希望将其包装在类似rate(),的函数中irate()，或者increase()查看计数器上升的速度。irate()(“instant rate”)：计算每秒的增长率，就像计算一样rate()，但只考虑在提供的时间窗口下的最后两个样本进行计算，并忽略所有较早的样本。为了不将这些重置解释为实际的负利率，与计数器相关的函数具有检测和处理这些重置的逻辑：在提供的时间窗口下迭代样本时，函数检查是否有任何样本的值低于前一个，并将这种情况解释为计数器重置。

2023-02-16 09:17:52 992

原创 Flink on Yarn 模式提交作业以及TaskManager内存配置

内存分为整个container内存、flink内存。其中内存类型又分为堆内存和堆外内存。JVM Metaspace ：默认256M；JVM Overhead内存：默认整个container内存的0.1；最大值为1G，最小值为192M，如果计算出来的内存大小不在此区间范围内，按照最小值/最大值分配；例如计算的结果为128M，实际按照192M分配；计算结果为1.2G，实际按照1G分配；

2022-12-09 14:39:41 1217

原创 flink 1.16.0上传jar报错

部署方式 Application Mode On Yarn。错误Caused by: java.lang.ClassCastException: org.codehaus.janino.CompilerFactory cannot be cast to org.codehaus.commons.compiler.ICompilerFactory

2022-11-21 17:36:36 1187

原创 metabase使用clickhouse数据库Bool类型错误

数据库为Bool类型。

2022-11-03 13:28:49 265

原创 Metabase使用clickhouse数据库时区异常问题解决

这个是 clickhouse.metabase-driver 的一个bug，最新版本也不能解决此问题。

2022-11-01 15:48:52 781

转载 hive group by | distinct区别以及性能比较

高版本的hive，对distinct进行了优化，其执行计划和group by的一样，已经不会出现低版本的一个reduce现象，运行时间也相差无几。而group by则会被hive翻译成分组聚合运算，会有多个reduce任务并行处理，每个reduce对收到的一部分数据组，进行每组聚合（去重）但是不明确用的hive版本是否优化了distinct的情况下，用group by 进行去重是不会有问题的。默认情况下，distinct会被hive翻译成一个全局唯一reduce任务来做去重操作，因而并行度为1。

2022-10-21 10:59:19 359

原创 DBeaver连接hive kerberos

配置 jdbc:hive2://{host}:{port}/{database}/;驱动 org.apache.hive.jdbc.HiveDriver。

2022-10-18 15:16:07 1230

原创 Elasticsearch 查看索引分片分段情况

elasticsearch 分片情况

2022-08-23 13:47:49 1761

原创 Elasticsearch 提升 Reindex 速度

elasticsearch reindex 速度提升

2022-08-23 13:39:59 940

原创 elaticsearch 安全重启

elasticsearch 5.2版本安全重启

2022-08-23 13:26:53 654

转载 Ubuntu 18.04每次打开命令行都要重新source profile的解决方法

在Ubuntu 18.04.1 LTS操作系统下配置了JAVA环境，每次重新打开命令行都要重新source profile，以下是该问题的原因分析及解决方法、注意事项。产生该问题的原因分析和记录1.bashrc是在系统启动后就会自动运行。2.profile是在用户登录后才会运行。3./etc/profile中设定的变量(全局)的可以作用于任何用户，而~/.bashrc等中设定的变量(局部)只能继承/etc/profile中的变量。延伸：login shell与non-login shell1.n

2022-05-10 08:19:34 1777

转载 springboot 定时执行

每天凌晨2点 0 0 2 * * ?和每天隔一小时 0 * */1 * * ?例1：每隔e69da5e887aa32313133353236313431303231363533313333656436625秒执行一次：*/5 * * * * ?例2：每隔5分执行一次：0 */5 * * * ?在26分、29分、33分执行一次：0 26,29,33 * * * ?例3：每天半夜12点30分执行一次：0 30 0 * * ? (注意日期域为0不是24)每天凌晨1点执行一次：0 0 1 * * ?每

2022-05-10 08:18:53 952

转载 springboo 定时执行

每天凌晨2点 0 0 2 * * ?和每天隔一小时 0 * */1 * * ?例1：每隔e69da5e887aa32313133353236313431303231363533313333656436625秒执行一次：*/5 * * * * ?例2：每隔5分执行一次：0 */5 * * * ?在26分、29分、33分执行一次：0 26,29,33 * * * ?例3：每天半夜12点30分执行一次：0 30 0 * * ? (注意日期域为0不是24)每天凌晨1点执行一次：0 0 1 * * ?每

2022-05-05 14:24:47 695

原创 Elasticsearch6.4.1安装

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearchelasticsearch.repo /etc/yum.repos.d/[elasticsearch-6.x]name=Elasticsearch repository for 6.x packagesbaseurl=https://artifacts.elastic.co/packages/6.x/yumgpgcheck=1gpgkey=https://arti.

2022-04-22 14:02:14 182

原创 JAVA常用操作

Java 数组转List的几种方法//1. Array 转 ListString[] arr = {"a", "b", "c"};List<String> list = Arrays.asList(arr);System.out.println(JSONObject.toJSONString(list));// 使用Arrays.asList生成的list是定长的，无法增加或删除元素，调用add或remove方法会抛出UnsupportedOperationException异常/

2022-04-20 14:54:26 393

原创 docker操作

停到所有容器docker stop $(sudo docker ps -aq)

2022-04-12 09:02:41 677

原创 IDEA 使用技巧

1. idea展开折叠类中所有方法展开:ctrl + shift + =折叠：ctrl + shift+ -2. Idea中设置注释位置——自动缩进到合适位置

2022-03-24 14:32:16 841

转载使用 Java 8 Streams 和 Spring Data JPA 流式处理 MySQL 结果

从 1.8 版开始，Spring 数据项目包含一个有趣的特性——通过一个简单的 API 调用，开发人员可以请求数据库查询结果作为 Java 8 流返回。在技术上可行并得到底层数据库技术支持的情况下，结果将被逐一流式传输，并可用于使用流操作进行处理。此技术在处理大型数据集（例如，以特定格式导出大量数据库数据）时特别有用，因为除其他外，它可以限制应用程序处理层的内存消耗。在本文中，我将讨论 Spring Data 流与 MySQL 数据库一起使用时的一些好处（和陷阱！）。从数据库中获取和处理大量数据（更

2022-03-09 13:33:43 2521

oracle语句优化方案

Ant使用指南

Symantec_Backup_Exec_2012

Openfire+Spark+Spark_Web

DBA职责DBA职责

SQLServerOracle

空空如也