科学的N次方-CSDN博客

原创 Flinkcdc通过catalog同步mysql数据到hologres的ods中

【代码】Flinkcdc通过catalog同步mysql数据到hologres的ods中。

2024-03-15 23:08:30 622

原创 AI入门之旅：从基础知识到实战应用(一)

人工智能入门之旅：从基础知识到实战应用(一)主要介绍了发展人工智能的重要性。人工智能的主要发展阶段和现代人工智能的主要分支领域，以及当前热门话题如AI伦理、AI安全及人工智能的应用场景。

2024-03-14 20:14:43 682

原创 Flinksql实时计算——group by key和 group by key 带窗口聚合有什么不同

带窗口聚合时，你可以指定一个时间窗口（如过去一小时、过去一天等），并在这个时间窗口内对 key 进行聚合。这允许你分析在特定时间范围内的数据，而不是整个历史数据集。这个聚合是基于 key 的所有历史数据进行的，不考虑时间窗口或数据排序。在处理流数据时特别有用，因为它允许你分析数据的实时变化，而不仅仅是整个数据集的历史聚合。查询将返回每个用户在每个一小时窗口内的行为数。带窗口聚合的主要区别在于它们如何处理数据的时间维度和计算结果的粒度。函数用于确定每个小时的时间窗口的开始时间，而。这些区别使得带窗口的。

2024-03-05 21:10:25 1256

原创如何构建基于Flink+Hologres的实时数仓

总之，通过上述步骤，可以构建出一个基于Flink和Hologres的实时数仓，实现数据的实时处理、存储和分析，帮助企业快速响应市场变化，提升决策效率。

2024-03-05 21:05:12 878

原创 flink任务cpu和内存资源的计算

JVM堆大小：JVM堆大小越大，可以同时运行的线程数就越多。因此，我们可以尝试提高JVM堆大小以提高并发度，从而降低CPU和内存的使用量。数据规模：Flink任务需要的CPU和内存与数据规模成正比。如果数据规模较大，那么任务需要更多的CPU和内存来处理数据。Flink任务需要的CPU和内存取决于任务的具体实现和数据规模。并行度：Flink任务的并行度越高，需要的CPU和内存就越多。

2023-06-18 22:13:46 2894

原创 Flink实时计算资源如何优化

并发优化：Flink任务需要多个线程或进程来并发执行计算操作。因此，我们需要尽可能地提高并发度以提高任务的性能和效率。CPU优化：Flink任务需要大量的CPU资源来执行计算操作。因此，我们需要尽可能地减少CPU的使用量。内存优化：Flink任务需要大量的内存来存储数据和状态信息。因此，我们需要尽可能地减少内存的使用量。flink实时计算任务可以从以下四个方面进行优化。

2023-06-18 22:10:56 1908

原创 HiveSQL中获取数字数组中最大元素的UDF

最近有个字段里面存的是个数字数组，需要提取一个最大的元素作为结果输出，编写一个UDF完成此需求。

2022-08-24 23:36:36 752

原创 sparksql关于grouping()函数在多维cube聚合的应用

在sparksq下，也可以使用grouping(xx)来组合多维cube的维度组合。

2022-07-15 08:52:01 897

原创基于http api作为flink自定义source源加工实时天气维表的实例

实时分析城市天气对订单的影响，并实时调整营销策略。

2022-07-03 22:56:15 1066

原创 hivesql和sparksql 关于cube中Grouping__ID的推理

sparksql中Grouping__ID的推理hivesql中Grouping__ID的推理

2022-05-11 15:53:30 723

原创 flinksql下的时间日期格式转换

flinksql里面最常用的事情就是时间格式转换，比如各种时间格式转换成TIMESTAMP(3).

2021-11-07 16:33:10 15896

原创基于flinksql的实时计算案例

因公司发展需要，需半小时统计一次截止到当前时间的关键指标的当日累计值。v1.0 链路采取的是 kafka-> clickhouse在设计的时候，一开始本人是想一个flinksql从source到transform到sink完成.v2.0 链路采取的是 kafka->kafka-> clickhouse奈何公司平台sink到ck的时候不支持upsert流。因此只能分解到先用一个flinksql加工出dwd.再起一个任务从dwd读数加工到ck....

2021-10-25 10:22:35 1529

原创维度建模--累积快照事实表

一、明细层分区日期为终态业务过程日期，其余归档30001231分区采用二级分区：create table target_table(COL …) partitioned by (state string,dt string);–partition(state=“china”,dt)，表示state为静态分区，dt为动态分区，以src_table中的city字段为分区名insert overwrite table target_table partition(state=“3”,dt) selec

2021-08-24 19:15:25 462

原创维度建模 -- 单事务与多事务事实表

一、明细层分区日期为数据数据处理日期每次ods层来的是新增与变化的记录，可能一个业务主键会有多条事件记录，中间状态数据不会丢失。对数据处理日期该事件是否发生打标签每天新增与变化的数据里面，通过状态和事件发生时间（与数据处理日期相比较），如果是事件处理日期发生的事件，则标记为is_td_xxx发生，字段值赋为1，当然也存在数据处理日期前发生的记录，因为有其他属性值发生变更导致存在于当日变化的数据里面，这部分数据因为is_td_xxx为false,0 ,后续汇总层统计时，并没有计算在内。二、汇总层

2021-08-22 20:44:04 892

原创大数据面试要点归纳总结

1.数据仓库2.HadoopHDFS HA在故障切换期间，ZooKeeper主要是发挥什么作用呢，有以下几点：失败保护：集群中每一个NameNode都会在ZooKeeper维护一个持久的session,机器一旦挂掉，session就会过期，故障迁移就会触发Active NameNode选择：ZooKeeper有一个选择ActiveNN的机制，一旦现有的ANN宕机，其他NameNode可以向ZooKeeper申请排他成为下一个Active节点防脑裂： ZK本身是强一致和高可用的，可以用它来保

2021-06-21 18:07:26 404

原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+kudu1.14.0+clickhouse21.4.6.55 流批一体数据仓库架构体系

目前整个过程的核心是flink批处理选择用pyflink流处理选择用java+flink当然之所以这么选择，是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作，批处理一直选择的脚本语言包括python,perl，甚至是kettle脚本。遇到实时数据处理，通常是springboot下面的消息订阅机制（activemq,rabbitmq,kafka）来处理。虽然也能应付实时的要求，但是数据量上来后明显感觉力不从心。另外维护两套引擎，维护工作实在是麻烦。直接看到flink的出现，感觉etl流批可以一体

2021-05-24 15:19:34 893 3

原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+hbase-2.2.2 流批一体数据仓库搭建

准备工作centos7 64位服务器3台：cetiti104 ceiti105 cetiti106 ,实现免密互通。jdk：jdk1.8.0_121 ，3台服务器jdk安装完毕kafka:kafka_2.12-2.5.0flink:1.12.0hadoop:3.1.3hive:3.1.2步骤：第一步安装 hadoop3.1.3集群第二步安装hive3.1.2第三步安装flink:1.12.0第四步安装kafka_2.12-2.5.0附件：1.install.sh2.jdk1.8

2021-03-11 16:14:30 820

原创 AI 是否会通过制造大量垃圾信息来污染互联网

AI确实可能通过生成大量垃圾信息污染互联网，但通过技术、政策、教育等多方面的努力，可以有效减少这种影响。关键在于提高生成内容的质量，同时发展强大的检测和过滤技术，并确保公众了解和能应对这些新出现的挑战。

2024-06-21 21:10:51 1403 1

原创如何通过AI进行智能日志异常检测

智能日志异常检测是一种利用人工智能（AI）技术来自动识别日志数据中异常模式或行为的方法。传统日志监控依赖于预定义规则，而智能日志异常检测可以适应不同的日志模式和异常类型，提高检测准确性和效率。下面是一个完整的步骤指南，如何通过AI进行智能日志异常检测。

2024-06-21 21:07:55 3186

原创人工智能中实现自动化决策与精细优化的核心驱动力

通过收集和分析大量的数据，AI系统能够识别模式、趋势和异常，从而做出数据驱动的决策。先进的机器学习和深度学习算法通过不断学习数据中的特征和规律来进行决策和优化。在许多自动化决策任务中，目标是优化某个性能指标，如成本、时间、资源等。这些驱动力共同作用，使AI系统能够自动化复杂的决策过程并不断优化性能。在某些领域，专家知识和规则可以显著提高决策质量。它们通常集成统计分析、数据挖掘和可视化技术。它依靠奖励机制来学习最佳策略。

2024-06-15 17:58:08 1468

原创采用卷积神经网络分类MNIST数据集与基础知识

MNIST（Modified National Institute of Standards and Technology）数据集是一个手写数字的图像数据库，用于机器学习领域中的图像分类任务。它包含60,000张训练图像和10,000张测试图像，图像大小为28x28像素，每张图像都属于从0到9的10个类别之一。

2024-06-15 17:55:22 1273

原创 Milvus向量数据库

Milvus 是一个开源的向量数据库，专为处理高维向量数据而设计，常用于大规模向量相似性搜索和基于向量的机器学习应用。它支持高效地管理、搜索和操作嵌入（如文本、图像、音频的特征向量），在推荐系统、图像检索、语义搜索等领域有广泛应用。

2024-06-14 20:35:00 649

原创 TF-IDF算法

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于文本挖掘和信息检索的加权统计方法，帮助衡量一个词语（术语）在一个文档集或一个语料库中的重要性。TF-IDF广泛应用于搜索引擎、文本分类和推荐系统中。

2024-06-14 20:33:35 596

原创人工智能在问题答疑领域的应用

人工智能在问题答疑领域的应用极大地提高了效率和用户体验，涵盖了从客户支持到教育、医疗和技术支持等多个方面。通过结合自然语言处理、知识图谱和机器学习等技术，AI系统能够提供准确、快速和个性化的答案，成为现代服务业和产品中不可或缺的工具。人工智能（AI）在问题答疑领域的应用已成为一项关键技术，提供了高效、实时的解答服务。这里详细描述了AI如何在多个方面实现问题答疑功能。

2024-06-13 20:23:30 1452

原创基于CNN-RNN模型的验证码图片识别

基于CNN-RNN模型的验证码识别方法能够有效处理复杂的验证码问题，结合了卷积神经网络的特征提取能力和循环神经网络的序列建模能力。通过使用CTC解码，可以在没有逐帧标注的情况下预测验证码中的字符序列。这种方法在实际应用中具有很高的准确率和适应性。

2024-06-13 20:21:54 1316 1

原创 Qwen2大模型原理、训练及推理部署实战

这些步骤展示了从训练到部署的整个流程。Qwen-2使用的实际细节和技术可能更复杂，涉及特定的优化算法和框架，但以上提供了一个基本的概念和流程。Qwen-2基于Transformer架构，这是现代NLP模型的基础。

2024-06-10 19:34:30 2032

原创人工智能--测试领域的运用

人工智能（AI）在软件测试领域的应用日益广泛，能够提升测试效率、覆盖面和智能化程度。以下是AI在测试中的主要应用、实现方法、工具及挑战。

2024-06-09 23:09:46 2625

原创基于大模型的Code Review

利用自然语言处理（NLP）模型，如GPT-4，对代码进行静态分析和生成建议。这些模型可以理解自然语言描述的代码意图，并生成代码评论、建议或改进点。

2024-06-09 23:07:00 2142

原创计算引擎：Flink核心概念

Flink 通过其核心概念如 DataStream 和 DataSet API、执行环境、状态管理、时间语义、窗口操作、水印、连接器等，提供了一种强大而灵活的流处理框架。它的丰富功能和可扩展性使其在处理实时数据流和批处理任务方面非常出色。

2024-06-07 21:52:42 1293

原创 GPT-4 和类似的先进语言模型正在重塑人类与人工智能（AI）互动的方式

GPT-4 正通过增强自然语言理解、个性化互动、知识获取、多模态互动、复杂任务处理、情感理解、教育支持、创意支持以及对话系统开发等多方面的能力，推动人类与 AI 之间的新型对话。这种对话更加自然、智能，能够更好地满足用户的各种需求，显著提升了人机互动的质量和效率。

2024-06-07 21:51:10 861

原创神经网络与深度学习中的目标检测与语义分割

由于物体的尺寸变化范围大，摆放物体的角度和姿态不定，且可以出现在图片的任何地方，因此目标检测是一个具有挑战性的任务。而语义分割则是将图像中的每个像素分配给特定的类别，从而实现对图像的精细分割。总的来说，目标检测与语义分割在神经网络与深度学习中各有侧重，但都是计算机视觉领域的关键技术，为图像理解和分析提供了强大的工具。随着技术的不断进步，它们在各个应用场景中的性能也在不断提升，为人们的生活带来了更多的便利。深度学习的目标检测算法可以学习到更多的特征和语义信息，从而提高了算法的准确性。

2024-04-27 22:18:21 724

原创 OpenCV如何使用分水岭算法进行图像分割

python请根据实际情况调整参数和预处理步骤。

2024-04-27 22:10:13 883 1

原创如何使用逆滤波算法deconvwnr恢复图像

需要注意的是，逆滤波在实际应用中可能会导致噪声放大，尤其是在信噪比较低的情况下。因此，在使用逆滤波进行图像恢复时，需要小心调整参数，以平衡去模糊和去噪之间的关系，以及应用适当的后处理技术来改善结果。逆滤波是一种常用的图像恢复技术，其中 Wiener 滤波器是其中的一种类型。逆滤波的主要思想是通过逆转图像受到的模糊过程，来尝试恢复原始图像。是估计的图像信噪比，它影响了 Wiener 滤波器的参数。更高的信噪比估计会导致更多的去噪，但也可能导致图像细节的丢失。这样，就可以得到原始图像经过逆滤波恢复后的图像。

2024-04-26 21:57:13 972 1

原创基于VMD-CNN-BiLSTM-Attention组合模型时间序列预测

VMD-CNN-BiLSTM-Attention组合模型是一种复杂的神经网络结构，用于时间序列预测。在训练过程中，通常使用已知的时间序列数据对模型进行监督学习，以调整模型的参数以使其能够更好地拟合数据。：BiLSTM是一种循环神经网络（RNN）的变种，能够捕捉时间序列数据中的长期依赖关系。需要注意的是，实现这样一个复杂的组合模型需要大量的计算资源和调试工作，同时也需要谨慎地调整每个组件的参数以获得最佳的性能。：CNN是一种经常用于处理图像数据的神经网络结构，但在时间序列分析中也有应用。

2024-04-26 21:52:15 991

原创深度学习--RNN循环神经网络和LSTM

深度学习中的循环神经网络（RNN）以及其中的一个变种长短期记忆网络（LSTM）是在序列数据处理方面非常重要的模型。下面我将详细介绍这两种网络的原理和应用。

2024-04-25 23:28:56 839

原创大模型公开课MLLM底层技术以及算力支持

理解大型语言模型（MLLM）的底层技术和所需的算力支持需要深入探讨自然语言处理（NLP）和深度学习的原理。下面我将介绍大型语言模型的底层技术、其背后的原理以及所需的算力支持，以及如何应对相关的挑战。

2024-04-25 23:24:18 1568

原创拉索回归（Lasso）算法原理讲解

拉索回归（Lasso Regression）是机器学习中的一种线性回归方法，它在回归问题中加入了L1正则化项，有助于进行特征选择和模型稀疏化。通过加入L1正则化项，拉索回归提供了一种有效的方法来解决线性回归中的过拟合问题，并同时进行特征选择，是一种常用的机器学习算法之一。

2024-04-24 21:35:51 1844

原创概率图模型--贝叶斯网络与马尔可夫随机场

这些模型在机器学习中的应用范围广泛，它们能够有效地建模复杂的数据结构，并提供强大的推理和预测能力，因此在实际问题中被广泛采用。概率图模型在机器学习中扮演着重要的角色，特别是贝叶斯网络和马尔可夫随机场。

2024-04-24 21:34:06 1229

原创用爬虫玩转石墨文档

使用爬虫来与石墨文档（Notion-like platforms）交互涉及几个关键步骤和注意事项。这里提供一个概念性的指南，帮助理解如何以合适的方式和遵守规定来实现数据抓取的目的，请确保你的行为符合石墨文档的服务条款及适用的法律法规。

2024-04-22 21:24:55 731

原创详细解读DreamFusion

DreamFusion是文本驱动的3D内容生成技术的一次重大进步，它融合了最新的机器学习研究成果，特别是文本到图像生成模型和神经辐射场技术，极大地提升了3D内容创作的效率和质量。这一技术的发展，预示着未来3D设计和元宇宙内容创造将更加依赖于智能化工具，为创意行业开启新的篇章。

这里是一个MATLAB的简单演示脚本，它展示如何创建一个自定义函数，并在脚本文件中调用这个函数来进行数值积分的计算：

2024-03-17

2024-04-03

下面是一个简单的Kotlin控制台应用程序示例，它会提示用户输入姓名并打印问候语

2024-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人