自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(134)
  • 资源 (8)
  • 收藏
  • 关注

原创 马哈鱼SQLFlow Lite的python版本

是一款用来分析各种数据库的 SQL 语句和存储过程来获取复杂的数据血缘关系并进行可视化的工具。Gudu SQLFlow Lite version for python 可以让 python 开发者把数据血缘分析和可视化能力快速集成到他们自己的 python 应用中。Gudu SQLFlow Lite version for python 对非商业用途来说是免费的,它可以处理 10k 长度以下的任意复杂的 SQL 语句,包含对存储过程的支持。

2024-01-30 17:26:09 1312

原创 【最新版本教程】GPT4暂停升级也可硬升!

本教程亲测整个过程,没有问题。步骤:1、有自己的3.5账号(没有的可以自己去注册,据说现在不用手机号了,方法自己查去);2、解决国外银行卡的问题。)这家国内的公司应该是专门解决这个问题的,有效期2年的美国银行卡,提供虚拟地址、在线客服可直接帮助升级到4,当然了开卡要一次性给两年年费,算下来100元RMB,其它费用无。之后就自己充钱,每个月扣20刀,也可随时退订。这当然比那些国内卖300多一个月,并且还不稳定的账号便宜得多了。3、使用4。

2023-12-06 12:18:20 837

原创 马哈鱼数据血缘工具免费使用

2023年8月和9月注册的用户可免费获得价值 3000 元的一年高级帐户,可以使用马哈鱼数据血缘工具全部付费功能。注册完成后,请联系 [email protected]进行升级。马哈鱼数据血缘工具从2023年8月开始开通国内云版本的服务,相比国外版本,访问速度有很大的提升,访问域名为https://v.sqlflow.cn。

2023-08-16 19:35:28 330

原创 马哈鱼 v.sqlflow.cn 上线试用

2023年8月和9月注册的用户可免费获得价值 3000 元的一年高级帐户,可以使用马哈鱼数据血缘工具全部付费功能。马哈鱼数据血缘工具从2023年8月开始开通国内云版本的服务,相比国外版本,访问速度有很大的提升,访问域名为。

2023-07-29 16:19:23 231

原创 大数据治理:数据安全

数据安全 (Data Security)一般指保护重要的、机密的纸质信息或数字信息,防止未经授权的非法访问、泄露、篡改、丢失、损坏、数据滥用等情形。数据安全涵盖的范围非常广泛,包括存储数据的硬件设备、访问数据的软件环境、访问权限控制、相关的规章制度等。说到数据安全,最常见的话题就是数据库安全和数据隐私。。有时还会加上问责制一同构成 CIA+A 四要素。CIA 三要素。

2023-06-14 17:05:27 1177

原创 大数据治理入门系列:数据质量

无论您是数据领域的专业人员,还是其他领域的非专业人士,也许都曾遇到过数据不完整、数据过时、数据不一致、数据不准确等问题。这些低质量的数据不仅没能解决最初的疑问,甚至还可能衍生出了其他问题。质量低劣的数据会影响数据分析结果,误导业务决策,造成经济或其他方面的损失,损害使用者的信心。因此,为了避免这类问题,组织机构有必要把控数据质量。数据质量也是的重要一环。。但从广义的层面而言,数据质量还可以包括定义数据质量标准、监督和维护数据质量的规则、流程、具体实施。

2023-06-12 20:35:53 2627

原创 Datahub安装教程

DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。目前SQLFlow已经具备集成Datahub的功能。有关如何集成SQLFlow到Datahub可以参考。

2023-06-10 17:20:06 1236

原创 大数据治理入门系列:数据管理

在如今的大数据时代,每天都会产生大量的新数据,已有数据可能也会频繁更新或转换。因此,需要对数据进行治理和管理,以便高效地开展数据分析、获取数据洞见、挖掘数据价值。否则,杂乱无章的数据只会白白浪费存储空间,甚至可能存在错误的数据误导组织结构的决策制定和发展方向。

2023-06-06 09:48:01 300

原创 大数据治理入门系列:数据目录

在一文中,我们曾将数据比喻为一本本的书,将书的作者、出版时间等信息比喻为元数据。试想一下,假如你是一名新任的图书管理员,如何快速掌握图书馆的馆藏情况呢?假如你是一名读者,如何快速找到你需要的图书呢?想必你需要一份内容完整、结构清晰的图书清单。同样地,。这就是本文要介绍的数据目录(Data Catalog)。

2023-06-03 22:05:17 1959

原创 大数据治理入门系列:元数据管理

介绍元数据管理之前,首先需要了解什么是元数据。

2023-05-30 09:44:09 637

原创 大数据治理入门系列:数据治理

在信息经济时代,数据是企业的一大关键资产。为了制定科学、有效、合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据。在此过程中,收集数据的速度、数据的质量和可靠性、对数据的分析过程、合适的分析工具等,都对最终决策具有显著影响。这些其实都属于数据治理的范围。

2023-05-27 21:14:29 955

原创 大数据治理入门系列:数据血缘关系

血缘关系在人类社会中扮演着重要角色。大多数家庭是基于血缘关系形成的,而家庭作为社会的基本单元,对维系社会稳定发挥着重要关系。其实,数据之间也存在类似的血缘关系。数据从产生、加工、流转,一直到消亡,每个环节必然存在一定的联系,这种联系就是数据的血缘关系。数据血缘关系(Data Lineage) 是对数据在系统内、系统间、业务线之间的流动和转换过程的记录,通过这份记录可以追溯数据的源头,跟踪数据的流转历史,查看数据在某一时刻的状态,寻找数据的最终去向等。

2023-05-25 10:24:04 1502

原创 马哈鱼SQLFLow直接数据流介绍

本文将介绍一些生成直接数据流的SQL元素,这些元素是生产数据流的主要原型。

2023-05-22 20:10:44 499

原创 使用马哈鱼SQLFlow分析聚合函数中的数据流列

聚合函数通常将列作为参数,在本文中,我们将讨论在用作函数参数的列和聚合函数之间创建什么样的数据流。

2023-05-18 20:56:30 564

原创 使用马哈鱼SQLFLow 1 分钟获取复杂 SQL 语句的血缘关系

数据血缘关系在企业的数据治理中是非常重要的一个环节,关于数据血缘在企业数据治理中的重要作用,可以。SQL 语言在数据处理中被广泛使用,SQL 语句中包含了丰富的数据血缘关系,关于什么是 SQL 中的数据血缘,如何发现这些隐藏在 SQL 语句中数据血缘,请。本文主要介绍如何利用提供的 UI,Rest API 及 Java 库来快速获取复杂 SQL 语句中的数据血缘,并根据需要,集成在自己的数据治理平台中。

2023-05-13 09:35:30 778 1

原创 马哈鱼SQLFLow数据流生成介绍

马哈鱼(SQLFlow)结构视图如下,它由客户端、前端、后端分析引擎三个基本组件后成,用户可以通过浏览器将要分析的SQL语句传递给前端,前端进行语法校验及分析参数设定等工作,然后将配置完成的逻辑发送给后端分析引擎,分析引擎生成数据血缘关系模型后交给前端生成图形化展示给用户。

2023-05-12 14:57:46 802

原创 马哈鱼SQLFLow对SQL Server OUTPUT Clause 的数据血缘分析

从中我们可以知道,OUTPUT Clause 可以从 INSERT, UPDATE, DELETE, or MERGE 返回变动的的数据集,我们可以对这些返回的数据进行再加工,例如插入到其他目标表中,从而在不同的表中建立数据关联,形成数据血缘关系。SQL Server OUTPUT Clause 会对 SQL 语句的血缘分析产生影响,如果忽略对 OUTPUT Clause 的分析,那么将漏掉一些关键的数据血缘关系,从而影响数据血缘分析的准确性,进而影响组织的数据治理质量。

2023-05-10 20:10:05 514 1

原创 马哈鱼SQLFLow对Oracle 存储过程中 execute immediate 语句的血缘解析

一个数据血缘/数据沿袭分析工具如果无法分析被 execute immediate 执行的语句,例如上例中的 insert 语句,那么一些关键的数据血缘关系将会被遗漏。Gudu SQLFlow 分析上面的 SQL 语句后,将给出下图的数据血缘/数据沿袭,保证了数据血缘关系的完整性。在 Oracle 数据库的数据血缘/数据沿袭分析过程中,我们会碰到 execute immediate SQL 语句。

2023-05-10 20:04:48 366

原创 Hive SQL 中 map, reduce 的数据血缘分析

在数据血缘分析中对这些 Hive SQL 特有的 SQL 语法的支持,是马哈鱼数据血缘关系分析工具和一般数据血缘分析工具的一个重要区别,对这些特殊 SQL 语法的支持,为企业的数据治理提供了完整的数据血缘,可以更好的提高数据质量,让企业的海量数据的在数据挖掘和智能分析中发挥更大的作用。如果你正在使用 Hive SQL 来处理企业数据仓库中的大数据,进行数据的清洗、转换、计算等工作,那么,可以为你自动梳理这些数据的血缘关系,告诉你数据的来龙去脉,极大的提高你的工作效率和数据治理水平。

2023-05-09 12:36:44 1743 1

原创 数据血缘分析工具SQLFLow自动画出数据库的 ER 模型

通过分析你所提供的 SQL 脚本,或者连接到数据库,可以自动画出数据库的 ER 模型,可视化表和字段的关系,帮助你迅速了解数据库的设计模型,进行高效的团队沟通。马哈鱼通过两种途径来为你自动可视化 ER 模型。

2023-05-08 19:53:10 2994

原创 马哈鱼SQLFLow数据血缘分析器增量分析血缘任务

是一个分析数据血缘关系的平台,支持对大量复杂的数据快速准确的分析,支持分批增量分析血缘。本文主要介绍如何利用马哈鱼增量分析任务。

2022-12-12 14:57:24 728 1

原创 马哈鱼SQLFLow数据血缘分析器分析SQL中的函数

本文主要介绍如何利用马哈鱼分析SQL中的函数。SQL:SQLFLow分析后的结果:可以直观的看出 ->,->两个直接关系,而对于其中的实际上是来自于的聚合,在SQLFLow中默认是不显示这些function的关系,查看需要打开show funct

2022-12-07 11:16:05 412

原创 第一次使用马哈鱼血缘分析工具(SQLFlow)

马哈鱼数据血缘分析工具(英文名称为 Gudu SQLFlow )是一款用于分析 SQL 语句,并发现其中数据血缘关系的分析软件,经常和元数据管理工具一起使用,是企业数据治理的基础工具。如果你对 SQL 语言不熟悉,那么本文可能不适合你阅读。阅读本文无需事先有数据血缘相关的知识,只要把数据血缘关系简单的理解为数据库中两个或多个表之间的数据依赖关系即可。我们通过分析下面的 SQL 语句,来看看如何梳理出各个表/视图间的数据依赖关系。通过分析以上 INSERT SQL 语句,我们可以知道。

2022-08-24 10:18:38 9317 2

原创 如何在5分钟内发现 SQL 语言中的数据血缘

首先我们需要知道什么是数据血缘,维基百科的定义在这里。关于数据血缘的入门知识,可以看这里。我们这里仅讨论数据库中各个表或视图(view)间的数据血缘,即各个表和视图间的数据是如何关联和流动的。我们以一个网上商店的数仓作为例子,来讲解数据血缘是如何产生的。该数据库包含8张表,展示了原始数据的导入,清洗和转换过程。

2022-07-26 10:57:21 6371

原创 使用Grabit自定义SQL收集metadata

Grabit 是 马哈鱼数据血缘分析器 的一个支持工具,它从各种数据源中收集SQL脚本,然后将它们上传到马哈鱼,以便对这些SQL脚本进行数据血缘分析,分析结果可以在马哈鱼中查看。同时,数据血缘结果将被提取到本地目录中。Grabit目前支持图形化界面和命令行两种方式操作,本文主要介绍Grabit如何使用命令行从数据库中获取DDL。获取DDL下载Grabit在Grbit目录中,参考conf-template/dbname-config-template.json配置文件,新建配置文件,填写其中的数据库

2022-03-06 17:23:05 5578 1

原创 马哈鱼数据血缘分析器中的子查询语句分析

马哈鱼数据血缘分析器中的子查询语句分析在实际生产环境中,无论你的业务复杂与否,子查询都是绕不开的话题,本文带你了解一下马哈鱼数据血缘分析器是如果处理各种子查询的。通过本文你能了解到不同场景的子查询在马哈鱼中的展示状态。嵌套子查询可以说是SQL语句中比较复杂的一部分,它可以提高查询效率,简化SQL语句的实现逻辑。子查询指的是一个查询语块可以嵌套在另外一个查询语句块的Form子句、where子句或者having子句中,根据位置不同可分为为子查询或内查询,后者为父查询或外查询。下面我们逐步分析各种使用场景中

2022-01-05 16:28:57 1557

原创 马哈鱼数据血缘分析器分析集合运算

马哈鱼数据血缘分析器分析集合运算当你使用马哈鱼数据血缘分析器进行SQL语句分析时,很多场景中会出现集合运算,本文主要介绍马哈鱼在处理集合运算时的分析场景。首先,我们需要先了解一下数据库常见的集合运算交、并、差,如下:并集 union all 返回各个查询的所有记录,包括重复记录并集 union 返回各个查询的所有记录,不包括重复记录交集 intersect 返回两个查询共有的记录差集 minus 返回第一个查询的记录减去第二个查询记录之后剩余的记录由于交并差集合运算从计算逻辑上都是一致的,即

2022-01-05 16:28:14 5314 1

原创 利用元数据提高 SQLFlow 血缘分析结果准确率

一、SQLFlow–数据治理专家的一把利器数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据治理分析师常常需要对各种复杂场景下的SQL语句进行溯源分析,而限于环境因素,往往只能提供SQL语句给SQLFlow进行分析处理,SQL语句的制造者往往为了简便行事,会产生一些数据库可执行但SQLFlow无法正确识别的一类语句,本文聚焦此处,为各位专家介绍

2022-01-05 16:27:13 6105

原创 马哈鱼分析数据库中metadata的血缘关系

马哈鱼数据血缘分析器是一个分析数据血缘关系的在线平台,用他可以获取指定数据库的 metadata,通过获取的 DDL 分析其中存储过程,视图等所依赖的各种数据源表。本文介绍利用马哈鱼从 SQLServer 中获取 DDL,分析出其中存储过程的血缘关系。获取 DDL首先,使用马哈鱼连接到 SQLServer 服务器获取指定表的所有 DDL,如下图,需要填写正确的连接信息:点击 test connection 按钮测试可否连接成功。在左下角 advanced 选项中,可以指定排除或者包含某些数据,其中

2022-01-05 16:24:10 5859 9

原创 使用GSP动态修改SQL语句

最近发现一款功能非常强大的解析SQL语句的引擎,GSP(全称General SQL Parser)。这是一款专业的SQL引擎,适用于市面上流行的各种数据库,同时他也支持了马哈鱼分析器对SQL的分析。这是他的官网:https://www.sqlparser.com/我们可以使用他对SQL的语法解析,格式化,提取关键字属性,获取数据库metadata等,下面用一些case来介绍下GSP的其中一个功能。下载首先去他的官网下载试用版本:https://www.sqlparser.com/dlacti

2021-12-26 10:45:40 5975

原创 马哈鱼数据血缘分析器分析SQL的case-when语句中字段依赖关系

马哈鱼数据血缘分析器是一个分析数据血缘关系的平台,可以在线直接递交 SQL 语句进行分析,也可以选择连接指定数据库获取 metadata、从本地上传文件目录、或从指定 git 仓库获取脚本进行分析。本文介绍如果利用马哈鱼来分析SQL的case-when语句中字段依赖关系。一个简单的Case考虑如下SQL:select case when a.kamut=1 and b.teur IS null then 'no locks' when a.kamut=1 then b.

2021-09-15 16:15:49 5452 2

原创 数据治理中Oracle SQL和存储过程的数据血缘分析

数据治理中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。分析数据血缘的方法主要分为四类自动解析系统跟踪机器学习人工收集自动解析主要是利用工具解析 SQL 语句、存储过程和 ETL等文件。本文以 Oracle 为例,来说明如何分析 SQL 和存储过程中的数据血缘。产生数据血缘的 SQL 语句SELECTINSERTUPDATEMERGECREATE VIEWCREAT

2021-09-12 09:11:45 6938

原创 如何白嫖注册马哈鱼血缘分析器

注册访客只能进行用户注册、查看用户隐私政策以及向马哈鱼官方反馈意见或建议,其他功能不可使用。所以,首次接触马哈鱼,无论你是初学者或者是专业的数据分析师,都需要先进行马哈鱼用户注册,才能进行下一步学习或工作活动。针对不同的使用场景,马哈鱼血缘分析器提供多种账户类型,在注册前可以根据自己实际情况进行身份匹配,避免反复切换用户类型影响工作效率,具体的场景介绍及适配账户类型参考下图:马哈鱼用户分类马哈鱼血缘分析器有三类账户,分别为普通用户账户、高级用户账户和团队用户账户。1、standard (普通用

2021-09-10 09:46:23 8809

原创 马哈鱼利用密钥对连接Snowflake并分析数据血缘

Grabit 是马哈鱼数据血缘分析器的一款支持工具,作用是从各种数据源收集 SQL 数据,然后将它们上传到马哈鱼,以便马哈鱼对这些数据进行分析获取血缘关系。目前 Grabit 支持获取数据的方式有:获取本地文件连接指定数据库获取 metadata。获取本地目录从指定 git 仓库获取数据其中,连接指定数据库获取 metadata 的这种方式目前支持下面这几种数据库:Azure,Greeplum,Hive,MySQL,Netezza,Oracle,Postgresql,Redshift,Sno

2021-09-07 14:36:09 5333

原创 马哈鱼—利用元数据提高数据血缘分析的准确性

一、马哈鱼: 数据治理专家的一把利器数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据治理分析师常常需要对各种复杂场景下的SQL语句进行溯源分析,而限于环境因素,往往只能提供SQL语句给马哈鱼进行分析处理,SQL语句的制造者往往为了简便行事,会产生一些数据库可执行但马哈鱼无法正确识别的一类语句,本文聚焦此处,为各位专家介绍马哈鱼官方对这类问题的

2021-09-05 14:27:30 5484

原创 马哈鱼数据血缘关系分析工具处理CSV文件中的SQL

SQLFlow 作为一个分析数据血缘关系工具,通过对收集的 SQL 脚本或者其他格式包含 SQL 的文件分析得到 data lineage。目前支持获取 SQL 的方式:通过在线递交 SQL 文本。连接指定数据库获取 metadata。上传本地文件目录从指定 git 仓库获取 SQL 脚本对于文件格式,目前支持 SQL 脚本,包含 metadata 的 JSON 文件,特定格式的 CSV 文件以及 spark 的 python 脚本文件,本文主要介绍 SQLFlow 对于 CSV 文件的分析

2021-09-01 17:26:24 5838 1

原创 马哈鱼数据血缘分析工具注册教程

layouttitlecategoriesdescriptionkeywordsauthorpermalinkpostSQLFlow 数据血缘分析工具新用户注册SQLFlowSQLFlow 数据血缘分析工具新用户注册sqlflow, data lineage, SQLFlow 数据血缘分析工具, 数据仓库, 数据湖, 数据血缘, 数据治理tako/sqlflow-register/一、SQLFlow是什么随着大数据技术的发展与普及,数据治理和数据质量变得越来...

2021-08-31 17:21:37 5877 2

原创 两数之和

题目给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1:输入:nums = [2,7,11,15], target = 9输出:[0,1]解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。示例 2:输入:nums = [3,2,4], target

2021-08-18 16:17:12 361

原创 使用SQLFlow从数据库中拉取数据分析

SQLFlow还支持从指定数据库中拉取表,视图,存储过程进行分析,获取data lineage。目前SQLFlow支持的数据库有:azure,greenplum,mysql,sqlserver,oracle,snowflake,netezza,postgresql,redshift,teradata连接数据库对数据库数据进行筛选参数的含义见官方文档: Grabit查看连接信息连接成功后可以查看输入的连接信息:结果总结SQLFlow是一款很强大的SQL脚本沿袭关系分析工具,除了分

2021-06-08 14:21:41 854

原创 SQLFlow分析mysql语句

使用SQLFlow分析一段mysql的SQL脚本,得其中的表以及字段间的数据血缘关系data lineage。分析的SQL:CREATE TABLE tmp.tmp_a_supp_achievement_an_mom_001 AS SELECT a1.dim_day_txdate, a.a_pin, Sum(Coalesce(b.amount, 0)) AS total_amount , Sum(Coalesce(c.refund_amt, 0)

2021-05-29 18:26:48 711 1

spring-boot-starter-kafka.zip

springboot集成kafka,自动配置,便于快速开发,隐藏kafka的集成配置过程,优化开发。

2020-01-22

spring-boot-starter-disruptor.zip

springboot集成disruptor,自动配置,便于快速开发,隐藏disruptor复杂的使用,线程池的频繁创建,优化开发。

2019-11-22

springboot集成netty实现代理服务器

springboot集成netty实现代理服务器,实现http和https请求的代理功能

2018-12-21

手写嵌入式Tomcat

手写嵌入式Tomcat,基于tomcat提供的api,实现嵌入式。

2018-12-07

手写mybatis

手写mybatis,实现了基于JDBC访问数据库层,以及mybatis的XML映射

2018-12-07

基于servlet3.0手写springmvc

基于servlet3.0手写springmvc,实现了IOC和处理器映射器以及处理器映射器功能。

2018-12-05

shiro-jwt-oauth权限认证

包含两个项目模块,一个是基于jwt的token认证方式,一个是基于shiro-jwt-oatuh的认证方式。

2018-11-11

stomp实现多人聊天和单人聊天

基于websocket的子协议stomp实现的多人聊天石和单人聊天室

2018-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除