for your wish-CSDN博客

原创 Flink状态后端-Memory/Fs/RockDB

纠正一个常见的误区：认为RocksDB是一个需要在集群上运行并由专门管理员管理的分布式数据库，是错误的。RocksDB是一个用于快速存储的可嵌入持久化键值存储。它通过Java Native接口（JNI）与Flink进行交互。

2024-08-12 11:30:17 1036

JdbcExecutionOptions 可以配置批量写入间隔时间最大写入数量和异常容错次数（只支持sql异常）JdbcConnectionOptions 可以配置数据库的连接参数关闭定时写入可以把 BatchIntervalMs设置为0实时写入可以把 BatchSize 设置为1间隔时间或者最大写入数或者触发检查点的时候这三个地方会触发写入批量写入jdbc未开启检查点可能会丢失数据的，开启了检查点需要保证数据库幂等性插入因为可能会重复插入！

2024-08-07 09:38:02 26

转载 Java并发调用多个接口聚合

通过并发调用多个接口并聚合结果，我们可以提高系统的响应速度和效率。在实际应用中，可以根据具体需求和接口调用的复杂度来调整线程池的大小和任务提交的方式。同时，我们也需要注意异常处理和线程安全性，确保系统的稳定性和可靠性。希望本文对你理解Java并发调用多个接口聚合有所帮助！如果有任何问题或建议，欢迎留言讨论。原创作者: u_16213326 转载于: https://blog.51cto.com/u_16213326/11293590。

2024-07-08 09:54:40 105

原创 Python机器学习术语and线性回归算法

线性关系：x和y呈一条直线。

2024-07-04 18:43:51 365

原创 conda同时使用tensorflow1和tensorflow2

Anaconda环境除了附带了众多Python库外，还支持多个虚拟环境，这这是TensorFlow1.x和TensorFlow2.x共存的关键。如果下载的是Python3.7的Anaconda版本，那么这个环境的Python版本就是Python3.7。注意，在创建虚拟环境的过程中，会通过Internet下载相关的库，可能在国内有些慢。现在回到主题，在前面已经创建了一个名为tf2的虚拟环境，接下来用下面的命令激活tf2。如果在此之前设置了其他的镜像，可以使用下面的命令删除这些镜像。

2024-06-14 16:07:44 363

原创安装torch报cannot uninstall TBB，its a distutils installed project

去anaconda文件夹的Lib下site-packages里找，TBB名称的egg.info的文件删掉即可，然后再次安装torch。

2024-06-11 14:01:14 746

原创数据治理指标库

方法：以维度建模作为理论基础，构建总线矩阵，定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。统一指标和维度管理，指标命名、计算口径、统计来源唯一，维度定义规范、维度值一致。1.2 衍生原子指标依赖于主原子指标，加衍生词(带计算口径)，不含时间范围。1 原子指标：不可再拆分的指标。

2024-05-31 16:13:27 132

原创数据治理之语法治理

指使用left join时，左表的过滤条件没有写在 where 中或写子查询，右表的过滤条件没有写在on里面或写子查询。使用right join时，左表的过滤条件没有写在on中或写子查询，右表的过滤条件没有写在where里面或写子查询。指语句中使用了distinct关键字，建议可用group by语句实现的采用group by来实现。指语句中进行了表关联，但是未指定on关联条件。该操作会导致大量计算，影响代码性能，需谨慎操作。指表关联中使用了full join，建议使用union all优化。

2024-05-31 16:10:57 204

原创吴恩达深度学习个人笔记

但它并不能很好地拟合该数据集，这是偏差高（high bias）的情况，称为欠拟合（underfit the data）；（Recurrent Neural Network），语言，英语和汉语字母表或单词都是逐个出现的，所以语言。复杂程度适中，数据拟合适度的分类器，这个看上起更为合理，称适度拟合（just right），相反地，如果我们拟合一个非常复杂的分类器，比如深度神经网络或者含有隐藏单元的神经网络，梯度下降法的工作原理是通过计算损失函数对于参数的梯度，然后沿着梯度的反方向更新参数，以减小损失函数的值。

2024-05-31 15:58:34 916

原创 tensorflow初实现深度学习

【代码】tensorflow初实现深度学习。

2024-05-31 15:55:29 417

转载 Coursera吴恩达《深度学习》课程总结（全）

这里有Coursera吴恩达《深度学习》课程的完整学习笔记，一共5门课：《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》，最后附上人工智能领域大师访谈，干货满满。2-1 Coursera吴恩达《改善深度神经网络》第一周课程笔记-深度学习的实践方面。3-1 Coursera吴恩达《构建机器学习项目》第一周课程笔记-机器学习策略（1）3-2 Coursera吴恩达《构建机器学习项目》第二周课程笔记-机器学习策略（2）

2024-05-31 15:10:16 61

原创基于docker-compose通过指定镜像做版本升级

将mysql的镜像导出成tar文件到当前文件夹。docker-compose.yml文件。#离线做mysql升级。

2024-04-11 16:54:29 902

原创数仓建模方法

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话：“烂程序员关心的是代码，好程序员关心的是数据结构和它们之间的关系”，最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。性能：帮助我们快速查询所需要的数据，减少数据的I/O吞吐，提高使用数据的效率，如宽表。

2024-03-25 11:12:39 338

原创数据血缘实现原理

大数据时代，数据的来源极其广泛，各种类型的数据在快速产生，数据也是爆发性增长。从数据的产生，通过加工融合流转产生新的数据，到最终消亡，数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下，数仓的开发者经常需要解决以下问题：面对成百上千张的数据表，不知道该如何关联，也不知道这些表具有什么业务价值执行过长，慢的无法忍受的SQL脚本，却不敢轻易进行整改数据表是否包含机密数据需要被清理，以及这些机密数据是否被转存导致权限放大其实，以上的这些问题都可以统一归类为数据发现问题。

2024-03-14 10:27:11 311

原创 win11家庭版docker和milvus

2、双击打开下载好的文件Docker Desktop Installer.exe，add shortcut to desktop选择√代表同意添加快捷键到桌面，如果不勾选就说明不创建快捷键，大家根据自己需求选择就行。8、然后输入下述命令，设置 Windows 操作系统中的 Hyper-V 启动类型。，则会找不到Hyper-Vr，这时则需要自己创建，讲下述代码复制在txt文本里，并重命名为Hyper.cmd，6、找到控制面板--程序--程序和功能--启用或关闭windows功能，勾选Hyper-V。

2024-03-07 14:03:00 748

原创向量化vectorization

向量化：向量化是一种特殊的编程技术，它可以充分利用现代处理器的并行处理能力，以提高代码的执行效率。它的基本思想是对一组数据（或称为数据向量）执行相同的操作，而不是对单个数据元素逐一执行。这样可以极大地提高代码的运行效率，因为处理器可以在同一时间内处理多个数据元素。

2024-03-05 09:55:46 344

原创 aidd-rdkit使用

rdkit的新版本是pypi,3.8以下的python只能用rdkit，以上只能用pypi。不要用conda包管理器不然非常缓慢。

2024-03-04 10:21:49 223

原创 Spark常见问题解决-日志和排查办法

（3）查看是否任务参数设置不合理，例如executor-memory是设的大，但是--num-executors设置的很少才几十个，可以根据集群情况和业务量大小合理增大executor数，数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据（如128或256M），在没有设置--executor-cores等参数的情况下，默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。

2024-01-25 13:44:51 409

原创 win下查看GPU

1首先ctrl alt delete打开任务管理器查看GPU型号

2024-01-16 20:54:02 421

转载 ESB服务&数据总线平台介绍

ESB企业服务总线作为集成龙骨满足应用、数据和业务等集成需要，应用集成如统一认证、单点登录等主要实现业务系统间的对接；数据集成如主数据治理和数据分析等，通过ESB实现数据的聚合以及分发；业务集成如业财一体化等，实现企业业务之间的互联互通。在集成的过程中，ESB的作用至关重要，它连接着上下游业务系统，构建了数据集成传输的通道，是企业信息化建设由无序到有序、由散乱到规范、由点对点到总线式的有效工具与手段。ESB企业服务总线在实际项目中主要用于各业务系统之间的集成，集成包括数据集成、应用集成以及业务单据集成。

2024-01-12 11:08:01 2364

原创 DAMA-描述性、诊断性、预测性和规定性分析

通过利用机器学习算法和统计模型，公司可以预测销售和需求的波动，识别旺季，优化库存管理，并保持敏捷，以应对不断变化的市场条件。规范分析通过使用优化算法和模拟工具来提高供应链效率，它仔细检查关于库存水平、生产能力、运输物流和市场需求的大量数据，以制定采购、生产和分销战略，这种方法可以降低成本，缩短交货期，并提高供应链的整体绩效。使用诊断分析分析客户流失时，需要仔细检查数据以确定导致客户流失的因素，这涉及对客户行为、反馈和参与度指标进行彻底检查，以发现可能指示客户终止与产品或服务的参与度的原因的模式和趋势。

2024-01-09 11:20:14 1025

原创 python获取当前用户home目录和username

【代码】python获取当前用户home目录和username。

2023-12-22 10:04:23 380

原创 sed和awk使用

3、sed读取一行数据，会以行作为单位进行处理，而awk读取一行，会切割成字段，区别: 1、sed是流编辑器(行)，而awk是文本格式化工具，报告生成器(解释型的编程语言);2、awk适合对文件进行抽取整理，sed适合对文件进行编辑;以字段(列)为单位，进行细节处理。

2023-11-29 16:28:55 233

原创 netstat和ps命令

意思为 127.0.0.1:36644 通过进程号83369访问 127.0.0.1:9091 ,成功ESTABLISHED了连接。

2023-11-29 13:36:00 554

原创 HDFS元数据管理/磁盘清理维护

文件、目录自身的属性信息，例如文件名，目录名，修改信息等文件记录的信息的存储相关的信息，例如存储块信息，分块情况，副本个数等记录 HDFS 的 Datanode 的信息，用于 DataNode 的管理。

2023-11-23 10:11:04 2036

原创防火墙操作:开放端口&ICMP时间戳请求漏洞修复

-一些新的 Linux 系统中,我们可以使用 firewalld 命令来管理防火墙规则。该命令将在防火墙规则中添加一条规则，允许 TCP 协议通过 8080 端口进行连接。重新加载防火墙规则: sudo firewall-cmd --reload。--permanent 参数将该规则永久性添加到防火墙中。响应ICMP时间戳请求漏洞修复。--检查端口是否已经被占用。

2023-10-20 13:52:47 1818

原创安装docker并在内安装mysql

在卸载Docker之前，首先需要停止Docker服务。yum -y install docker.io 或 apt-get install -y docker.io。卸载Docker软件包后，你还需要手动删除Docker相关的文件和目录。登录容器之前需要先启动容器: docker start 容器id (上面已经启动了不用再启动)进入容器，从容器中登录MySQL：mysql -uroot -pJmkx_2022。Docker在安装时创建了一个名为docker的用户组和用户，

2023-10-19 09:28:18 633

原创 flinkdashboard未授权

访问 http://172.16.150.xx:8084。然后目录在/usr/local/nginx。flinkwebui 增加账号密码。添加配置完成以后，重启nginx，修改flink.conf。配置nginx.conf。

2023-10-16 12:25:30 1447

原创 flink参数设置

移动云帮助中心

2023-10-15 22:55:41 77

原创连续重复10次以上

【代码】连续重复10次以上。

2023-10-06 19:16:25 54

原创 mysql5升级到mysql8的血泪教训

我这里备份了全库，所以后面数据没恢复回来，把DDL语句拆出来了单独建表。核心问题1:下载中断这个包就会有问题，下载中断的话一定要重新下载。核心问题2:低版本向高版本迁移无法整库备份只能单库备份。# 安装包上传至原安装包目录下我的是。更改配置文件/etc/my.cnf。# 文件夹重命名为mysql8。给用户某库下所有表的增删改查权限。# 修改mysql服务启动项配置。# 这两句很重要一定要 -R。# 修改basedir目录。

2023-09-20 15:38:16 617

原创 PyCharm导入python项目

在弹窗中，选择New environment 或者 Existing environment都可以，路径选择本地配置的python.exe路径即可;进入PyCharm后，点击File→Open，然后在弹窗中选择需要导入项目的文件夹;打开了python项目后，需要配置该项目对应的python才可以正常运行;在设置弹窗中选择Project Interpreter，然后点击add;然后就大功告成了，可以去试着运行你的程序了~配置步骤：File→settings。

2023-09-18 18:06:12 513

原创 Grafana+Alter+webhook发预警给钉钉

Grafana通过为警报分配标签来处理警报通知，alert rules有定义label，即给不同的触发规则定义label。notification policies里配置label和contact points的关系。notification policies 将alert rules与contact points关联起来。1.架构简介：alert rules、contact points 、notification policies。首先复制出来钉钉群的钉钉机器人的access_token。

2023-08-02 09:53:25 876

原创 Pushgateway+Prometheus监控Flink/Doris

思路方案。

2023-07-27 13:10:09 834 1

原创数据常用名词解释，数仓表设计

例如：现有注册表和登录表两张表，注册表中存储了会员ID，字段名为user_id ，登录表中也存储了会员ID，字段名为userid ，此时针对会员ID这个数据创建统一的数据标准，例如指定数据处理的标准代码、指定字段的属性要求（例如字段的数据类型、长度、默认值等）、指定数据的度量单位。即时间线，在基线运维场景中，通过设定几条时间线（即基线），并将线上任务关联到这些时间线上，当这些任务的实例或上游实例运行失败，或者这些实例的预计产出时间超过对应的时间线时，系统会触发报警通知给值班人员。

2023-04-21 16:50:00 606 1