- 博客(270)
- 资源 (32)
- 收藏
- 关注
原创 Flinkcdc通过catalog同步mysql数据到hologres的ods中
【代码】Flinkcdc通过catalog同步mysql数据到hologres的ods中。
2024-03-15 23:08:30 257
原创 AI入门之旅:从基础知识到实战应用(一)
人工智能入门之旅:从基础知识到实战应用(一)主要介绍了发展人工智能的重要性。人工智能的主要发展阶段和现代人工智能的主要分支领域,以及当前热门话题如AI伦理、AI安全及人工智能的应用场景。
2024-03-14 20:14:43 513
原创 Flinksql实时计算——group by key和 group by key 带窗口聚合有什么不同
带窗口聚合时,你可以指定一个时间窗口(如过去一小时、过去一天等),并在这个时间窗口内对 key 进行聚合。这允许你分析在特定时间范围内的数据,而不是整个历史数据集。这个聚合是基于 key 的所有历史数据进行的,不考虑时间窗口或数据排序。在处理流数据时特别有用,因为它允许你分析数据的实时变化,而不仅仅是整个数据集的历史聚合。查询将返回每个用户在每个一小时窗口内的行为数。带窗口聚合的主要区别在于它们如何处理数据的时间维度和计算结果的粒度。函数用于确定每个小时的时间窗口的开始时间,而。这些区别使得带窗口的。
2024-03-05 21:10:25 855
原创 如何构建基于Flink+Hologres的实时数仓
总之,通过上述步骤,可以构建出一个基于Flink和Hologres的实时数仓,实现数据的实时处理、存储和分析,帮助企业快速响应市场变化,提升决策效率。
2024-03-05 21:05:12 583
原创 flink任务cpu和内存资源的计算
JVM堆大小:JVM堆大小越大,可以同时运行的线程数就越多。因此,我们可以尝试提高JVM堆大小以提高并发度,从而降低CPU和内存的使用量。数据规模:Flink任务需要的CPU和内存与数据规模成正比。如果数据规模较大,那么任务需要更多的CPU和内存来处理数据。Flink任务需要的CPU和内存取决于任务的具体实现和数据规模。并行度:Flink任务的并行度越高,需要的CPU和内存就越多。
2023-06-18 22:13:46 1736
原创 Flink实时计算资源如何优化
并发优化:Flink任务需要多个线程或进程来并发执行计算操作。因此,我们需要尽可能地提高并发度以提高任务的性能和效率。CPU优化:Flink任务需要大量的CPU资源来执行计算操作。因此,我们需要尽可能地减少CPU的使用量。内存优化:Flink任务需要大量的内存来存储数据和状态信息。因此,我们需要尽可能地减少内存的使用量。flink实时计算任务可以从以下四个方面进行优化。
2023-06-18 22:10:56 1503
原创 sparksql关于grouping()函数在多维cube聚合的应用
在sparksq下,也可以使用grouping(xx)来组合多维cube的维度组合。
2022-07-15 08:52:01 627
原创 hivesql和sparksql 关于cube中Grouping__ID的推理
sparksql中Grouping__ID的推理hivesql中Grouping__ID的推理
2022-05-11 15:53:30 475
原创 基于flinksql的实时计算案例
因公司发展需要,需半小时统计一次截止到当前时间的关键指标的当日累计值。v1.0 链路采取的是 kafka-> clickhouse在设计的时候,一开始本人是想一个flinksql从source到transform到sink完成.v2.0 链路采取的是 kafka->kafka-> clickhouse奈何公司平台sink到ck的时候不支持upsert流。因此只能分解到先用一个flinksql加工出dwd.再起一个任务从dwd读数加工到ck....
2021-10-25 10:22:35 1203
原创 维度建模--累积快照事实表
一、明细层分区日期为终态业务过程日期,其余归档30001231分区采用二级分区:create table target_table(COL …) partitioned by (state string,dt string);–partition(state=“china”,dt),表示state为静态分区,dt为动态分区,以src_table中的city字段为分区名insert overwrite table target_table partition(state=“3”,dt) selec
2021-08-24 19:15:25 278
原创 维度建模 -- 单事务与多事务事实表
一、明细层分区日期为数据数据处理日期每次ods层来的是新增与变化的记录,可能一个业务主键会有多条事件记录,中间状态数据不会丢失。对数据处理日期该事件是否发生打标签每天新增与变化的数据里面,通过状态和事件发生时间(与数据处理日期相比较),如果是事件处理日期发生的事件,则标记为is_td_xxx发生,字段值赋为1,当然也存在数据处理日期前发生的记录,因为有其他属性值发生变更导致存在于当日变化的数据里面,这部分数据因为is_td_xxx为false,0 ,后续汇总层统计时,并没有计算在内。二、汇总层
2021-08-22 20:44:04 724
原创 大数据面试要点归纳总结
1.数据仓库2.HadoopHDFS HA在故障切换期间,ZooKeeper主要是发挥什么作用呢,有以下几点:失败保护:集群中每一个NameNode都会在ZooKeeper维护一个持久的session,机器一旦挂掉,session就会过期,故障迁移就会触发Active NameNode选择:ZooKeeper有一个选择ActiveNN的机制,一旦现有的ANN宕机,其他NameNode可以向ZooKeeper申请排他成为下一个Active节点防脑裂: ZK本身是强一致和高可用的,可以用它来保
2021-06-21 18:07:26 222
原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+kudu1.14.0+clickhouse21.4.6.55 流批一体数据仓库架构体系
目前整个过程的核心是flink批处理选择用pyflink流处理选择用java+flink当然之所以这么选择,是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作,批处理一直选择的脚本语言包括python,perl,甚至是kettle脚本。遇到实时数据处理,通常是springboot下面的 消息订阅机制(activemq,rabbitmq,kafka)来处理。虽然也能应付实时的要求,但是数据量上来后明显感觉力不从心。另外维护两套引擎,维护工作实在是麻烦。直接看到flink的出现,感觉etl流批可以一体
2021-05-24 15:19:34 731 3
原创 hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+hbase-2.2.2 流批一体数据仓库搭建
准备工作centos7 64位 服务器3台:cetiti104 ceiti105 cetiti106 ,实现免密互通。jdk:jdk1.8.0_121 ,3台服务器jdk安装完毕kafka:kafka_2.12-2.5.0flink:1.12.0hadoop:3.1.3hive:3.1.2步骤:第一步安装 hadoop3.1.3集群第二步安装hive3.1.2第三步安装flink:1.12.0第四步安装kafka_2.12-2.5.0附件:1.install.sh2.jdk1.8
2021-03-11 16:14:30 657
原创 如何使用逆滤波算法deconvwnr恢复图像
需要注意的是,逆滤波在实际应用中可能会导致噪声放大,尤其是在信噪比较低的情况下。因此,在使用逆滤波进行图像恢复时,需要小心调整参数,以平衡去模糊和去噪之间的关系,以及应用适当的后处理技术来改善结果。逆滤波是一种常用的图像恢复技术,其中 Wiener 滤波器是其中的一种类型。逆滤波的主要思想是通过逆转图像受到的模糊过程,来尝试恢复原始图像。是估计的图像信噪比,它影响了 Wiener 滤波器的参数。更高的信噪比估计会导致更多的去噪,但也可能导致图像细节的丢失。这样,就可以得到原始图像经过逆滤波恢复后的图像。
2024-04-26 21:57:13 146
原创 基于VMD-CNN-BiLSTM-Attention组合模型时间序列预测
VMD-CNN-BiLSTM-Attention组合模型是一种复杂的神经网络结构,用于时间序列预测。在训练过程中,通常使用已知的时间序列数据对模型进行监督学习,以调整模型的参数以使其能够更好地拟合数据。:BiLSTM是一种循环神经网络(RNN)的变种,能够捕捉时间序列数据中的长期依赖关系。需要注意的是,实现这样一个复杂的组合模型需要大量的计算资源和调试工作,同时也需要谨慎地调整每个组件的参数以获得最佳的性能。:CNN是一种经常用于处理图像数据的神经网络结构,但在时间序列分析中也有应用。
2024-04-26 21:52:15 360
原创 深度学习--RNN循环神经网络和LSTM
深度学习中的循环神经网络(RNN)以及其中的一个变种长短期记忆网络(LSTM)是在序列数据处理方面非常重要的模型。下面我将详细介绍这两种网络的原理和应用。
2024-04-25 23:28:56 374
原创 大模型公开课MLLM底层技术以及算力支持
理解大型语言模型(MLLM)的底层技术和所需的算力支持需要深入探讨自然语言处理(NLP)和深度学习的原理。下面我将介绍大型语言模型的底层技术、其背后的原理以及所需的算力支持,以及如何应对相关的挑战。
2024-04-25 23:24:18 1077
原创 拉索回归(Lasso)算法原理讲解
拉索回归(Lasso Regression)是机器学习中的一种线性回归方法,它在回归问题中加入了L1正则化项,有助于进行特征选择和模型稀疏化。通过加入L1正则化项,拉索回归提供了一种有效的方法来解决线性回归中的过拟合问题,并同时进行特征选择,是一种常用的机器学习算法之一。
2024-04-24 21:35:51 423
原创 概率图模型--贝叶斯网络与马尔可夫随机场
这些模型在机器学习中的应用范围广泛,它们能够有效地建模复杂的数据结构,并提供强大的推理和预测能力,因此在实际问题中被广泛采用。概率图模型在机器学习中扮演着重要的角色,特别是贝叶斯网络和马尔可夫随机场。
2024-04-24 21:34:06 937
原创 用爬虫玩转石墨文档
使用爬虫来与石墨文档(Notion-like platforms)交互涉及几个关键步骤和注意事项。这里提供一个概念性的指南,帮助理解如何以合适的方式和遵守规定来实现数据抓取的目的,请确保你的行为符合石墨文档的服务条款及适用的法律法规。
2024-04-22 21:24:55 610
原创 详细解读DreamFusion
DreamFusion是文本驱动的3D内容生成技术的一次重大进步,它融合了最新的机器学习研究成果,特别是文本到图像生成模型和神经辐射场技术,极大地提升了3D内容创作的效率和质量。这一技术的发展,预示着未来3D设计和元宇宙内容创造将更加依赖于智能化工具,为创意行业开启新的篇章。
2024-04-22 21:14:56 578
原创 MiniMax的abab-6系列模型
其次,abab-6系列模型针对处理复杂场景中的不足进行了改进,提高了模型输出的精细度。首先,abab-6系列模型在指令遵从、中文综合能力和英文综合能力上均优于之前的版本,也明显超过了其他大语言模型,如GPT-3.5、Claude2.1和Mistral-Medium等。同时,它还支持语音输入,进一步提高了工作效率。总的来说,MiniMax的abab-6系列模型在性能、应用场景和运算效率等方面都表现出色,是国内首个千亿参数以上的基于MoE结构的大语言模型,具备处理复杂任务的能力,并在多个测试集上表现更好。
2024-04-21 11:11:07 152
原创 最新版GPT-4.5-Turbo简单介绍
此外,GPT-4.5-Turbo还提高了对长文本的处理能力,上下文窗口长度从32K提升到128K,能够处理更长的文本,如整部小说。GPT-4.5-Turbo还优化了模型控制,允许一次交互同时调用多个函数,并引入JSON模式以简化API,提高了模型的推理速度,使其能够在更短的时间内生成结果。总的来说,GPT-4.5-Turbo是一个功能强大、性能卓越的AI模型,它的推出不仅展现了人工智能技术的快速进步,也为未来AI的应用提供了新的可能性。首先,GPT-4.5-Turbo在编程和代码生成方面有着出色的表现。
2024-04-21 11:07:45 371
原创 分类与预测算法评价的介绍
分类与预测算法的评价是在机器学习中至关重要的一步,它帮助我们了解模型在解决特定问题上的表现如何,并且可以帮助我们选择最适合我们需求的算法。
2024-04-20 15:56:32 345
原创 AI大模型与函数式编程
将AI大型模型与函数式编程融合,是一种激动人心的前景。而AI大型模型的出现为我们提供了更加智能的解决方案,能够理解和生成自然语言,从而为我们的程序提供更高级的功能。这个生成器可以根据开发人员提供的自然语言描述,生成相应的代码,并且使用函数式编程的理念来保持代码的简洁和可维护性。:结合AI大型模型的自然语言理解和生成能力,可以开发出能够理解自然语言描述的程序,并生成对应的代码。:AI大型模型在训练时会学习到大量的模式和规律,这使它们能够识别常见的设计模式和最佳实践,并在编程过程中提供相关的建议和指导。
2024-04-19 22:09:52 977
原创 开源大模型 Llama 3
Llama 3在Meta自制的两个24K GPU集群上进行预训练,使用了超过15T的公开数据,其中5%为非英文数据,涵盖30多种语言。这个训练数据集是前代Llama 2使用的数据量的七倍,包括的代码数量是Llama 2的四倍。Llama 3提供了8B和70B的预训练和指令微调版本,支持广泛的应用。在架构层面,Llama 3选择了标准的仅解码(decoder-only)式Transformer架构,并采用了包含128K token词汇表的分词器。这种架构和分词器的选择有助于模型在处理文本时更加准确和高效。
2024-04-19 21:56:38 1145 2
原创 常见经典目标检测算法
RCNN (Regions with Convolutional Neural Networks)系列是早期目标检测算法的代表,包括RCNN、Fast R-CNN、Faster R-CNN等。:SSD (Single Shot MultiBox Detector)是一种与YOLO相似的实时目标检测算法,采用单个神经网络来直接预测多个尺度的边界框和类别。:Mask R-CNN是在Faster R-CNN的基础上扩展而来的算法,不仅可以检测目标,还可以同时生成目标的分割遮罩。
2024-04-18 22:38:51 317
原创 npm 常用命令详解
如果你的项目有一个package.json文件,npm install将根据该文件中列出的依赖项来安装所有必需的包。:发布包到npm仓库。这个命令用于将你的包发布到npm仓库,使得其他人可以通过npm install命令安装它。这些是一些最常用的npm命令,它们可以帮助你在Node.js项目中管理依赖、发布和管理包、运行脚本等。它将列出项目中已安装的包,以及它们的当前版本和最新版本之间的差距。这个命令将更新你的项目中安装的指定包到最新版本。这个命令将从你的项目中移除指定的包。这个命令将安装指定名称的包。
2024-04-15 22:53:45 711
原创 NLP预训练模型-GPT-3
GPT-3(生成式预训练模型3)是由OpenAI开发的一种自然语言处理(NLP)模型,它是目前为止最大、最先进的预训练语言模型之一。GPT-3基于深度学习技术,使用了数千亿个参数来学习语言的潜在模式,并能够生成高质量的文本。GPT-3的一个显著特点是,它具有出色的通用性,能够在各种语言和领域中表现出色,而无需针对特定任务进行微调。与其前身GPT-2相比,GPT-3拥有更多的参数和更大的规模,这使得它能够更准确地理解和生成文本。它可以用于多种NLP任务,如文本生成、摘要、翻译、问题回答等。
2024-04-15 22:51:01 156
原创 FineBI概述
总的来说,FineBI 是一款功能丰富、易于使用、灵活定制的商业智能工具,适用于各种规模和行业的企业,能够帮助用户快速进行数据分析和可视化,从而支持企业的决策制定和业务优化。用户可以轻松地从不同数据源中获取数据,并进行集成和分析。:FineBI 提供了丰富的扩展接口和开发工具,支持定制化开发和集成,用户可以根据自己的需求进行二次开发,扩展 FineBI 的功能和应用场景。:FineBI 提供了丰富的定制化功能,用户可以根据自己的需求进行报表和分析界面的定制,包括数据筛选、计算字段、格式化、主题样式等。
2024-04-14 23:14:14 333
原创 kylin使用心得
综上所述,Kylin是一个强大而灵活的分布式分析引擎,适用于需要对大规模数据进行多维度分析的场景。通过预计算和存储多维度的聚合数据,Kylin可以实现秒级的响应时间,这对于需要快速分析大数据的场景非常有用。: Kylin使用标准的SQL作为查询语言,这使得用户可以使用熟悉的SQL语法来编写查询。: Kylin支持多维数据模型,可以轻松地构建多维度的数据立方体,并支持复杂的多维度分析查询。: Kylin的架构设计具有良好的可扩展性,可以根据需求扩展集群规模和处理能力,以应对不断增长的数据量和查询负载。
2024-04-14 23:13:25 390 1
检查指定网站是否存在基于SQL注入的漏洞
2024-04-06
一个大数据开发的小案例
2024-04-04
一个游戏开发的小案例程序
2024-04-04
一个前端开发的小案例脚本
2024-04-04
一个后端开放的小案例脚本
2024-04-04
YOLO的一个小case
2024-03-24
一个JAVAspring的DEMO
2024-03-24
PHP的一个简单的脚本
2024-03-23
一个JavaScript脚本示例
2024-03-23
C++ 程序的一个小示例
2024-03-23
C#的一个 WPF应用程序
2024-03-23
Go创建一个简单的 Web 服务器
2024-03-23
Scratch的一个小脚本
2024-03-23
汇编语言的一个小脚本示例
2024-03-19
Objective-C示例程序脚本
2024-03-19
线性回归算法的Python小Demo
2024-03-18
PyTorch介绍&心得
2024-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人