大数据处理
文章平均质量分 84
梦想画家
开源软件爱好者,乐于博客分享,业余时间喜欢跑步和科幻,希望与意趣相投朋友一起学习交流。
展开
-
如何使用Jinja定义dbt宏
dbt宏使用Jinja引擎,这是Python web框架中广泛采用的模板引擎。使用Jinja可以将占位符和逻辑直接嵌入到SQL代码中,使其具有动态性和模块化。在dbt宏中可以定义带有参数的SQL块,然后可以在整个dbt项目中使用不同的参数重用该SQL块。为什么要使用Jinja宏?可重用性: 一次定义复杂逻辑,然后跨多个模型使用它。可维护性: 集中逻辑以简化更新并减少错误。灵活性: 在宏中组合SQL和Python代码来处理复杂的数据转换。原创 2024-09-23 20:42:11 · 362 阅读 · 0 评论 -
dbt run-operation命令及应用示例
dbt run-operation命令是一个强大的工具,可以为dbt工作流增加灵活性和效率。使用宏可以自动执行复杂的任务、生成动态SQL查询,所有这些都可以从命令行完成。无论你是优化数据转换过程还是确保数据质量,掌握dbt run-operation都将让你在数据工程领域脱颖而出。原创 2024-09-23 15:38:48 · 421 阅读 · 0 评论 -
dbt snapshot命令及应用示例
DBT快照是跟踪数据随时间变化的强大工具。通过学习本教程,现在应该对如何创建和使用dbt快照有了较好的理解。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。原创 2024-09-21 08:10:40 · 1094 阅读 · 0 评论 -
dbt seed 命令及应用示例
dbt seed命令是将静态数据加载到数据仓库中的强大工具。通过使用seed可以在dbt中保持转换逻辑,确保数据转换是一致的、版本控制的和代码可审查的。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。原创 2024-09-19 19:09:38 · 751 阅读 · 0 评论 -
# dbt source & dbt source freshness命令详解
DBT source 表示数据仓库中的原始数据表,是DBT转换的基础数据源。dbt source不是直接引用这些表,而是提供了一种抽象,增强了可维护性和清晰度。通过将表声明为源,可以将其标记为转换的可信基础,从而启用数据新鲜度检查等功能。在业务上下文中,源可以表示原始销售数据、客户交易数据或库存数据。dbt source 命令设计用于管理基础数据源,它的主要子命令,可以检查原始数据表的新鲜度,确保数据是最新的、可靠的。原创 2024-09-19 19:07:28 · 1038 阅读 · 0 评论 -
dbt compile 命令及应用
本文介绍了命令,包括应用场景、详细说明及注意事项。了解这些信息,有助于在项目中高效使用该命令。原创 2024-09-18 18:19:45 · 531 阅读 · 0 评论 -
dbt 常用11个必知命令
到目前为止,您应该已经很好地理解了基本的dbt命令,以及如何在数据转换项目中使用它们。这里没有涉及一些更复杂的参数选项,未来结合实际场景详细描述。实践出真知,行动起来吧。原创 2024-09-18 18:14:58 · 388 阅读 · 0 评论 -
Dbt基本概念与快速入门
dbt项目是包括在操作系统中特定目录里,其中包含对数据执行转换所需的所有内容。它包含许多.sql文件(称为模型)和YAML文件(用于配置)。创建dbt工程,可以在命令行中使用dbt init 命令。终端要求您输入与可用数据平台适配器对应的代码。因为只有DuckDB,所以可以按1。├── logs├── macros├── models├── seeds├── target├── tests模块化: 保持数据转换有组织,并将其划分为可管理的单元,使代码更容易理解和维护。原创 2024-09-16 10:24:11 · 1188 阅读 · 0 评论 -
分析工程涉及技术体系与工具
DBT是一个开源工具,它通过提供一种创建、测试和转换数据模型的方法,帮助数据工程师、分析工程师和数据分析师构建数据网格。数据团队利用dbt定义、测试和构建数据模型,以工程化理念落地数据仓库分层转换数据方法论,以便其他团队和应用程序可以轻松地使用数据仓库或数据中转换好的数据模型。数据建模能力数据建模功能允许团队通过使用简单且熟悉的、基于sql的语法来定义数据模型,使得数据工程师和数据分析师可以轻松地一起定义和测试数据模型。数据测试能力。原创 2024-09-15 11:12:02 · 586 阅读 · 0 评论 -
AWK快速入门教程
最近看到安装开源软件的相关脚本,其中大量用到AWK相关内容。本文介绍AWK的基础知识及典型用法、结合示例进行说明,方便备忘查询。了解awk基础知识将大大提高命令行上操作文本文件的能力。awk有几种不同的实现。我们将使用awk的GNU实现,它被称为gawk。在大多数Linux系统上,awk解释器只是gawk的符号链接。原创 2023-09-15 09:08:36 · 498 阅读 · 0 评论 -
快速掌握 Cypher 查询语言
> Cypher是最广泛采用的、开放的、专门用于图数据库查询语言。它提供了一种直观和快速的方式来处理图数据。>> 本文包含一些常见的Cypher查询及其解释。如果你不确定如何编写Cypher查询时,可以查看此文备忘单。如果你是图形数据库和Cypher的新手,你也可以使用这篇文章来熟悉Cypher提供的功能。原创 2023-07-27 13:55:25 · 1300 阅读 · 0 评论 -
Neo4j数据库中导入CSV示例数据
本文简要介绍Neo4j数据库以及如何从CSV文件中导入示例数据,方便我们快速学习测试图数据库。首先介绍简单数据模型以及基本图查询概念,然后通过LOAD CSV命令导入数据,生成节点和关系。原创 2023-07-26 16:23:54 · 1830 阅读 · 0 评论 -
ClickHouse存储解析JSON数据
json数据在ClickHouse中就和string字段一样,但可以使用JSON*函数检查并抽取json键值。还可以使用抽取函数作为索引提升查询性能,但最好考虑将它们移动到单独的列中,只留下动态内容存储在JSON列中。参考:https://altinity.com/blog/clickhouse-json-data-type-version-22-6;原创 2023-03-30 21:18:57 · 6773 阅读 · 0 评论 -
常用ClickHouse性能监控SQL汇总
ClickHosue对DBA非常友好,system数据库提供了所有DBA需要的信息。本文进行介绍最重要的一些SQL,远不是完整清单,但应该能帮助你快速确定问题。参考文档:https://clickhouse.com/blog/optimize-clickhouse-codecs-compression-schema;原创 2023-03-29 20:07:57 · 2107 阅读 · 0 评论 -
快速搞懂ClickHouse表引擎
表引擎在ClickHouse中扮演重要角色,直接决定如何存储、读取数据,是否支持并法读写,是否支持索引、查询类型、主从复制等。ClickHouse提供4类表引擎,分别支持不同场景。如Log系列用于小型表数据分析,MergeTree系列实现大型表数据分析,集成系列用于数据集成。考虑到这么多类型对于新用户经来说难以理解、也难以选择,本文试图对各类引擎进行整理,加深理解,希望对你也有帮助。另外复制系列和分布式表引擎比较复杂,未来再学习分享。原创 2023-03-24 20:24:50 · 1631 阅读 · 0 评论 -
ClickHouse使用MySQL实现字典查询
外部字典是ClickHouse的一等公民,是Schema的一部分,我们可以使用本地DDL或 ON CLUSTER语句进行创建。实现细节多用户是透明的,它自动转换join查询为字典调用,用户体验及查询性能都值得我们去学习和使用。外部字典还有其他类型,如层次、多边形等字典,未来继续学习并分享。原创 2023-03-18 15:47:48 · 1668 阅读 · 0 评论 -
Golang 处理parquet文件实战教程
Parquet是Apache基金会支持的项目,是面向列存储二进制文件格式。支持不同类型的压缩方式,广泛用于数据科学和大数据环境,如Hadoop生态。本文主要介绍Go如何生成和处理parquet文件。原创 2023-02-27 18:17:25 · 2046 阅读 · 1 评论 -
介绍并比较Apache Hive支持的文件格式
本文介绍了Hive中支持的不同文件格式,了解并选择合适的文件格式对于大数据类应用非常重要。原创 2023-02-24 14:49:56 · 450 阅读 · 0 评论 -
基于R语言理解Parquet文件格式
parquet特征后者支持有效存储、查询数据。假设有下列数据:如果存储为CSV文件,在R终端中看到的是文件存储格式的镜像,为行存储,可有效实现文件查询,如:只要定位到第二行并返回数据,另外追加行到数据集也很方便,仅需要在文件结尾增加一行。但如果想汇总age列数据,那么可能是低效的,因为需要变量每一行并确定那个值是age,再返回。parquet使用列存储,按列布局,列数据按顺序存储。使用该布局,执行下面查询也是不方便,但如果需要汇总所有age,则仅需要简单汇总第三行。读写parquet文件在R中,读原创 2023-02-24 13:58:19 · 1104 阅读 · 0 评论 -
Apache Hive 数据掩码函数教程
hive 提供了一些数据掩码函数,这里整理出来为需要设计掩码功能的开发者作为参考。原创 2022-11-08 16:34:32 · 951 阅读 · 0 评论 -
合并RxJava的Observable数据流
Observable 序列,或简单称为Observable,表示异步数据流。这些概念遵循基于观察者模式,在该模式中,一个叫做观察者的对象订阅了Observable发出的数据。订阅是无阻塞的,因为观察者会对Observable未来发出的任何消息做出响应,这也又促进了并发性。Observable本文介绍几个合并RxJava的Observable数据流的方法。你还可以学习通过官方文档学习更多的方法:combineLatest, join, groupJoin, switchOnNext等。原创 2022-09-29 11:55:48 · 1379 阅读 · 1 评论 -
Spring Cloud Stream 和 Kafka实战教程
我们的项目需要于kafka进行通讯,因此需要定义输出流(往kafka主题写消息)、输入流(从kafka主题中读消息)。Spring Cloud 提供了便捷方式实现上述功能,仅需要简单创建接口,给每个流向指定相应方法。/*** input*//*** output*/}inboundGreetings() 方法定义输入流从 Kafka 读取消息,outboundGreetings() 方法定义输出流往kafka写消息。原创 2022-09-26 18:13:41 · 2279 阅读 · 0 评论 -
配置Kafka发送大消息
在本文中,我们介绍了配置调优Kafka选项以发送大于1MB的大消息。包括生产者端、主题、代理服务和消费者端的配置选项。其中一些选项是强制配置,一些是可选配置,虽然消费者配置是可选的,但可以避免负面的性能影响。最后,我们还介绍了发送大消息的其他可能选项。内容参考:[Send Large Messages With Kafka](Send Large Messages With Kafka)原创 2022-09-26 14:23:59 · 4693 阅读 · 0 评论 -
Mqtt 客户端 java API 教程
MQTT (MQ Telemetry Transport) 是一种消息协议,用于解决需要简单、轻量方法在低能耗设备间传输数据,如在工业领域。随着物联网(IoT)设备的日益普及,MQTT的使用也越来越多,以致于OASIS宣布将MQTT(消息队列遥测传输)作为新兴的物联网消息传递协议的首选标准。该协议支持单一消息传递模式:发布-订阅模式。客户端发送的每个消息都包含一个关联的“主题”,消息服务器使用该主题将消息路由到订阅的客户端。原创 2022-09-21 17:44:32 · 2939 阅读 · 0 评论 -
快速掌握Zookeeper及Java API
在开发分布式应用程序时,Apache ZooKeeper作为分布式协调服务起着至关重要的作用。特别是对于存储共享配置、选择主节点等应用场景。ZooKeeper还提供了优雅的javaAPI,用于客户端应用程序代码与ZooKeeper znode间无缝通信。原创 2022-09-16 15:25:51 · 1132 阅读 · 2 评论 -
介绍数据分类与数据安全管理
数据分类是根据内容的敏感程度确定信息类别的过程,基于数据的分类帮助确定需要多大程度的保护和安全控制。如果您从事数据分类或数据管理工作,在担任此类职责时,您可能会拥有数据管理员、数据经理或数据科学家等头衔。例如,您可能会查看公司的所有文件和数字事务,在分类之前将设置参数以保护每种分类数据。贵公司从顾客、客户、供应商和其他商业实体收集了什么信息?你的公司创建什么信息和数据,像文件,电子表格,客户档案和收据?这些数据的安全或敏感级别是多少?哪些组织需要访问您的数据,访问频率如何?原创 2022-08-19 15:36:54 · 1527 阅读 · 0 评论 -
Flink快速入门教程
本文简要介绍了Apache Flink框架,并通过示例展示如何使用一些转换API,包括利用DataSet API实现单词频次计算,利用DataStream API 实现简单实时事件流转换。原创 2022-08-17 12:11:15 · 2657 阅读 · 0 评论 -
Python读写时序数据库InfluxDb
InfluxDb 是高性能的时间序列数据库,能够存取高吞吐量时间序列数据,每秒可达几百万数据点。数据点(或时间序列数据)可能是CPU运行指标、不同服务器的日志信息、传感器数据、股票市场数据等。InfluxDb 使用Go语言开发,无需外部依赖。InfluxDb 提供了类SQL接口查询数据。自动压缩数据和降低采样率有助于最大限度地减少存储空间。通过连续查询和数据保留策略,可以让数据库中的旧数据过期。行协议语法下面示例度量名称为weather,包括两个标签location和season再看一个示例,除了标签原创 2022-06-10 21:04:24 · 4106 阅读 · 2 评论 -
R语言实现单变量分析教程
单变量分析是理解单个变量的数值分布情况,与之相对的有双变量分析和多变量分析。加载示例数据因为csv文件中年收入字段有千分位分隔符,所以先定义转换函数。setClass("num.with.commas")setAs("character", "num.with.commas", function(from) as.numeric(gsub(",", "", from) ) )data <- read.csv("csv/data.csv",colClasses=c('n.原创 2022-04-17 23:21:21 · 2825 阅读 · 0 评论 -
Java 创建kafka主题
本文简要介绍Apache Kafka,并使用Java编码方式创建、配置kafka主题。Kafak 介绍Apache Kafka是强大、高性能、分布式的事件流平台。通常生产者应用程序发布事件到Kafka,消费者订阅这些事件以便读取和处理它们。Kafka使用主题来存储和分类这些事件,例如,在一个电子商务应用程序中,可能有一个“订单”主题。Kafka主题是分区的,它将数据分布在多个代理上以实现可伸缩性。分区可设置副本,从而使数据具有容错性和高可用性。主题还可设置保留策略,便于后期使用。这些都可以通过Ka.原创 2022-03-30 17:05:14 · 3356 阅读 · 0 评论 -
回归模型几个度量参数概念比较
回归模型几个度量参数概念比较本文我们介绍几个常用回归模型度量参数,分别对比它们之间的差异和应用场景。回归模型常用于量化一个或多个预测变量与响应变量之间的关系。当拟合回归模型时,我们需要了解预测变量预测响应变量的程度。常用指标有:mean squared error (MSE) 和 the root mean squared error (RMSE),另外还包括R-Squared。MSE(均方误差)判定预测模型的准确度的常用方法是均方差MSE( mean squared error)。计算公示为:原创 2022-02-02 19:19:10 · 3702 阅读 · 0 评论 -
线性回归模型的度量参数1- SST SSR SSE R-Squared
本文解释线性回归模型的度量参数,并通过示例给出其计算过程。模型度量参数概述线性回归用于找到一条线能够最佳拟合数据集。通常使用三个不同的平方和值衡量回归线实际拟合数据的程度。Sum of Squares Total (SST)单个数据点(观测值)于响应变量的均值差的平方和。Sum of Squares Regression (SSR)预测值ŷi与响应变量均值差的平方和。Sum of Squares Error (SSE)预测值ŷi与观测值差的平方和。三者之间的关系为:S.原创 2022-02-01 19:05:54 · 9440 阅读 · 0 评论 -
皮尔逊相关性的五个假设前提
皮尔逊相关性的五个假设前提本文介绍皮尔逊相关性的五个假设前提,并对每个假设前提进行详细说明。皮尔逊相关系数(也称为"积矩相关系数")是衡量两个变量之间的线性关联。它的取值范围在[-1,1]之间:-1 表示完全负相关0 表示完全不相关1 表示完全正相关但我们在计算皮尔逊相关性时,要了解它要符合5个假设:变量类型:两个变量要属于区间或比例变量线性关系:两个变量之间存在一定线性关系正太分布:两个变量应该大致符合正太分布数据配对:数据集中每个观测数据包括成对数据原创 2022-01-06 19:51:40 · 13442 阅读 · 0 评论 -
矩阵乘法Java实现
本文介绍几种方式实现矩阵相乘。矩阵概念一般语言没有提供,我们首先子句实现,同时也介绍一些现成库实现。1. 概念介绍首先通过示例介绍矩阵,首先定义第一个3x2的矩阵:我们再定义第二个2x3的矩阵:两个矩阵相乘,结果为3x4矩阵:计算公式为:第一个矩阵的列数要和第二个矩阵的行数相等,否则不能相乘。即从A矩阵的第一行开始依次和B矩阵的每列相乘,每行与列元素相乘的结果相加作为结果矩阵的一个元素。2. 矩阵乘法实现2.1 自己实现首先我们自己实现矩阵相乘,为了简单我们使用二维double类型原创 2021-02-18 15:39:02 · 6917 阅读 · 0 评论 -
一分钟看懂数据湖架构
数据湖和数据仓库两者都广泛应用于大数据存储,但两者之间概念不可互换。数据湖是存储原始数据的池,目的仍没有明确。数据仓库存储结构化的、已过滤、处理的数据,用于特定分析目的。 两种数据存储架构经常被混淆,起始两者之间差异大于共性。事实上,唯一共性都为了存储海量数据。 了解两者区别很重要,因为它们服务于不同的目的,需要使用不同的视角进行理解。虽...原创 2020-04-24 17:32:05 · 4098 阅读 · 0 评论 -
R 语言向量详解
向量是R中最基本的数据对象,也是最常用的对象之一。向量用来存储一组基本数据类型的数据,如:字符、逻辑、数值、复数。有模式和长度属性,模式决定存储在对象中的数据类型,长度表示含有元素的长度。原创 2016-05-29 15:17:07 · 2234 阅读 · 0 评论 -
RStdio 常用快捷键
在R语言里面输入了一个不完整的指令以后 左下方的console pane一直有加号+,不管输入什么都是加号,只用推出重新打开Rstudio才行,后来google了下,按左上角的Esc键也可以回到命令提示符状态,顺便总结下一些常用快捷键。原创 2016-05-29 20:04:55 · 7166 阅读 · 0 评论 -
python3.4 访问 oracle11g
python代码简洁,准备利用其读取数据库中数据,生成csv文件,然后导入到另一个库中,因两台数据库网络不通;本次先测试oracle的代码。原创 2016-06-29 14:31:05 · 3391 阅读 · 0 评论 -
Flask-SQLAlchemy 快速入门
Flask-SQLAlchemy 的使用是有趣的,对于基本应用异常的简单,并且为大型应用扩展也 是没有困难的。要完整的指导,请查阅 SQLAlchemy 类的 API 文档。转载 2016-06-30 14:07:59 · 1348 阅读 · 0 评论 -
R语言:gl()函数
详解R语言中的gl函数。翻译 2016-06-30 17:30:16 · 27734 阅读 · 0 评论