Azure
文章平均质量分 85
發糞塗牆
MVP, TOGAF, MCSE, Azure Solution Architect
展开
-
【Azure 架构师学习笔记】- Azure Service Endpoint 和 Azure Private Endpoint
前面两章【Azure 架构师学习笔记】- Azure Private Endpoint和【Azure 架构师学习笔记】- Azure Service Endpoint分别介绍了PE 和SE的内容。那么这两者的区别在哪里,什么时候用?通过网上搜集资料和测试,总结了以下内容。原创 2024-03-12 09:25:08 · 590 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Private Endpoint
公有云的其中一个特点是默认允许公网访问, 这就对企业环境带来风险,也是很多年前企业对公有云抵触的其中一个原因,现在这类问题已经很少,因为有了很多技术来确保云上的资源被安全地访问。其中Private endpoint(PE)就起到了很重要的作用。云上的某个资源如VM会创建在特定的网络(VNet/Subnet)上, 而其他如Storage Account , Azure SQL等PaaS服务则没有。如果你需要用VM 来访问这些PaaS资源,VM 就会通过资源的公网IP 来访问。原创 2024-03-07 09:26:04 · 1263 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Service Endpoint
在做Azure 架构时,经常会被问到Service Endpoint这个点,那么这篇文章来介绍一下Service Endpoint(SE)。原创 2024-03-05 09:11:50 · 718 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Synapse -- Link for SQL 实时数据加载
Azure Synapse Link for SQL 可以提供从SQL Server或者Azure SQL中接近实时的数据加载。通过这个技术,使用SQL Server/Azure SQL中的新数据能够几乎实时地传送到Synapse(SQL DW)中。然后进行后续的数据分析。这个过程通过change feed技术最小化对Azure SQL/SQL Server的影响。在这个移动过程中,会使用ADLS Gen2 作为暂存,然后再加载到Synapse dedicated pool中。原创 2024-02-27 09:14:59 · 1111 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (10) -- UC 使用
本文属于。本文属于【Azure Databricks】系列。接上文中演示了如何配置一个UC。本文在配置的基础上大概演示其使用。原创 2024-02-22 15:44:56 · 729 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (9) -- UC权限
本文属于。本文属于【Azure Databricks】系列。接上文UC 是Databricks进行数据治理,集中权限管控, 提高大规模数据存储,共享安全性的新工具。通过基于角色的访问控制(Role-based access control)来实现这种控制。所以接下来我们将介绍角色。原创 2024-02-21 09:36:35 · 742 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (8) --UC架构简介
UC 简单来说,就是管理两样东西:用户和元存储。原创 2024-02-20 09:24:31 · 725 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (7) --Unity Catalog(UC) 基本概念和组件
在以前的Databricks中,主要由Workspace和集群、SQL Warehouse组成, 这两年Databricks公司推出了Unity Catalog(UC)之后,整个Databricks架构都有了不一样的改变。它在Workspace之上添加了一层UC, 包含了用户管理(User Management)和元存储(Metastore)。原创 2024-02-19 11:29:56 · 1398 阅读 · 0 评论 -
【Azure 架构师学习笔记】- Azure Databricks (2) -集群
在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。原创 2023-12-06 08:56:11 · 1146 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(6)- File Layer
上一文介绍了存储帐户的概述,还有container的一些配置,在container下面存放的就是文件夹和文件,也就是数据。之所以单独一文描述是因为当一个项目考虑使用云存储时,除了一些必要的外部设置这种“硬”设计之外,还需要考虑文件结构这种“软”设计。本文讲述的就是比较通用的“软”设计部分。在container下面,按照业界的一些最佳实践,会定义一些列的Zone, 目录,当然还要配置安全控制,将在下一文介绍。原创 2023-11-15 08:56:43 · 580 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(5)- Data Lake layers
不管在云还是非云环境中, 存储是IT 系统的其中一个核心组件。在Azure 上,云存储主要以存储帐户(Storage Account)来实现。在使用Storage Account时,又有很多需要考虑的事项,比如安全,高可用,文件结构等。本系列分3篇文章,以最常用的Azure Data Lake Store Gen2 (ADLS Gen2)作为例子演示一些架构方面的配置和考虑, 包括:Storage Account的物理结构、文件系统设计、安全配置。原创 2023-11-08 08:50:27 · 871 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (5)-Managed VNet
PaaS服务默认都经过公网传输, 这对很多企业而言并不安全,那么就需要对其进行安全改造,本文介绍一下ADF 在这方面的内容。当我们需要用ADF 访问SQL DB 时,如何使用更加安全?如果有一定ADF 基础的人可能知道ADF 可以使用SHIR,和Azure IR两种主流方式, SHIR 基于VM ,IaaS是可以通过网络配置使其私有化,更加安全。对于Azure IR,默认使用Internet。原创 2023-03-28 09:12:42 · 733 阅读 · 1 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (5) --Data Flow
Azure Data Factory, ADF 是微软Azure 的ETL 首选服务之一, 是Azure data platform中的一种PaaS, 托管的, Serverless的服务。通过把ETL功能封装在各种类型的Pipeline中并按需执行,从而实现数据的传输和转换。原创 2023-10-09 08:54:43 · 1146 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(4)- ADF 读取Queue Storage
上一文演示了如何从ADF 写入消息到Storage Queue, 本文接着演示如何用ADF从Queue中读取消息。原创 2023-03-24 09:04:36 · 419 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(3)- ADF 访问Queue Storage
随着ADF 连接其他资源的需求越来越多,内置的功能很多时候没法直接使用,比如访问Storage Queue就没有对应的activity可以用,这个时候就可以考虑使用Web Activity来实现。首先创建一个队列:https://你的storage account.queue.core.windows.net/queue的名字/messages方法:可以看到有GET, POST,PUT, DELETE,PATCH可选。这里我们选择POST。原创 2023-03-22 08:48:12 · 381 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(2)- Queue Storage
Azure Storage Queues 是一个专门用来处理基于云环境队列的Azure 服务。每个队列都维护着一些消息(messages)。在消息队列中,需要有发送者(Sender)和接收者(Receiver),发送者把消息放进队列中,接收者把消息从前面的队列中读取并处理。消息队列常用于社交媒体的消息发送中, 由于它的实时性要求并不是非常高,可以把消息先放到队列中,然后放到多个管道中进行后续发布,这样可以很大程度上减缓压力。原创 2023-03-07 09:05:30 · 493 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Storage Account(1)-类型简介
大数据引起了存储革命, 云计算又为大容量高速存储提供了可能的方案,每个商业云供应商都会提供特殊的云存储。而Azure 对应的云存储则称为存储帐户(Storage account)。它被广泛使用在各种云系统、服务中,作为数据的临时或者永久存储,现在建立在云上的PaaS类型的系统,几乎无一例外会使用到它,虽然可能需要自建,也可能是服务自带的。Storage Account(下称SA)具有可扩展性,相对价格低廉,性能稳定的特点, 不过在正式使用时,往往会有一些疑问,SA 到底怎么用?原创 2023-03-03 08:54:02 · 1336 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (4)-触发器详解-事件触发器
事件触发指的是存储事件,所以在新版的ADF 中,已经明确了是“存储事件”, 当对blob进行创建,删除时,就会触发事件。和“翻转窗口”有点不同的是,翻转窗口是一对一的触发,事件触发时多对多的关系,一个事件可以触发多个pipeline。事件可以只选一个,也可以全选两个。本文使用【已创建Blob】来演示,简单来说就是上传一个文件(blob), 使触发器触发这个事件,并把文件从我个人storage account的“logicapp / source” 下搬到“dest / dest”。原创 2023-03-01 09:34:37 · 508 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (3)-触发器详解-翻转窗口
上文中提到触发器的类型有以下4种,其中第一种【计划】是常用的, 与其他工具/服务类似的方式,这里就只做简单介绍:可以看到这种类型下,都是基于日期形式的选择:还能根据月历来指定具体的停止时间:但是本文重点介绍的是另外一种类型【翻转窗口】。原创 2023-02-24 09:09:02 · 493 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (2)-触发器
【添加触发器】/立即触发:马上执行pipeline,但是仅这次。触发结果如下图:调试:跟立即触发有一点小区别,主要在于日志的收集。当调试时,可以看到pipeline的细节输出到下方界面。但是使用立即触发时,日志需要去监控页查看。【添加触发器】/新建/编辑:这是配置pipeline的调度。【Azure 架构师学习笔记】-Azure Logic Apps(6)- Logic Apps调用ADF计划(Schedule):设置基于事件和频率的触发器。就是上文提到的默认配置。原创 2023-02-22 09:38:48 · 572 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Data Factory (1)-调度入门
在开发好一个ADF pipeline(功能)之后,需要将其按需要运行起来,这个称之为调度。下图是一个简单的ADF 运作图, 按照需要的顺序,由某个程序或者人,调度Data Factory Service里面的pipelines。这些pipelines是在Data Factory Service中定义和存储的。然后通过pipeline中具体的活动(Activity,比如copy)访问Linked Services, 然后从Source中获取数据,写入Sink中。: 与外部资源的连接。Dataset。原创 2023-02-21 09:05:59 · 1259 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(7)- 自定义Logic Apps 调度
在稍微了解Logic Apps的使用之后,需要开始考虑如何调度起来。在Logic Apps里面,可以使用“重复”这个触发器来实现,毕竟调度实际上来说就是重复做,否则一次性的操作没必要进行调度。直接指定一个时间即可。原创 2023-02-17 08:52:17 · 516 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(6)- Logic Apps调用ADF
Logic Apps 和 ADF 的搭配使用是常见的组合,它们可以互相弥补各自的不足和发挥各自的长处。从ADF调用Logic Apps, 因为ADF 没有内置的activity,所以往往需要使用其他的如web, http等activities来调用。而从Logic Apps调用ADF 则相对简单,因为它有内置的connector。下面来演示一下如何用Logic Apps触发ADF 的pipeline。原创 2023-02-14 09:29:35 · 586 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(5)- 标准和使用量类型的区别
在做实验的过程中,发现使用“使用量”(Consumption)类型会出现很多问题,而且有很多功能都找不到,后来对比一下官网的配置才发现当时为了省钱,使用了使用量类型。为了能继续后面的实现和学习,尝试使用标准(standard)类型,不过如下图所示,价格非常贵,所以在后续会只在截图时才创建,平时删除。原创 2023-02-01 09:11:07 · 494 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(4)-演示2
上文做了简单的演示,这一文将开始较为详细的演示如何用Azure Logic Apps来删除自定义条件下的存储帐户上的文件。原创 2023-01-13 09:04:52 · 731 阅读 · 1 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(3)-演示1
前面两篇文章大概介绍了一些理论知识,但是为用而学才是最重要的,所以接下来做一个非常简单的演示,用Logic App删除Storage account上面的文件。原创 2023-01-06 09:14:20 · 772 阅读 · 1 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(2)-组件介绍
Logic Apps 包含了一系列的组件用来实现集成功能。但是最主要的是3部分:Connectors, triggers, 和actions。它们用于构建起整个Logic app的应用。原创 2022-12-27 17:33:37 · 842 阅读 · 0 评论 -
【Azure 架构师学习笔记】-Azure Logic Apps(1)-简介
简介Azure Logic Apps原创 2022-12-16 15:04:53 · 1075 阅读 · 0 评论 -
【Azure Data Platform】Azure SQLDW 结果集缓存
result-set cache原创 2022-03-31 19:25:52 · 844 阅读 · 0 评论 -
【Azure Data Platform】Azure SQLDW与ADLS的整合
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】Azure Data Lake(1)——简介前言在Azure上面,已经没有了data warehouse这种称呼,不过我还是偏向于使用SQL DW作为 Azure Synapse Analytics 的叫法。毕竟SQL DW还是行业称呼,没有用过Azure Synapse的人可能不熟悉它是什么东西。其实 Azure Synapse Analytics 代表着在Data lake上的大数据与传.原创 2022-03-27 17:03:45 · 2386 阅读 · 0 评论 -
【Azure Data Platform】Azure Data Lake(1)——简介
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】SQL DW 备份策略https://www.matillion.com/resources/blog/what-is-azure-data-lakehttps://k21academy.com/microsoft-azure/data-engineer/azure-data-lake/https://global.hitachi-solutions.com/blog/6-features-.原创 2022-03-26 11:21:36 · 3485 阅读 · 0 评论 -
【Azure Data Platform】SQL DW 备份策略
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】数据平台的选择本文谈一下SQL DW的备份策略前言数据库的备份重要性不用多说,但是随着各种产品特别是云数据库的出现,其备份形式就有了比较多的种类。我本人并没有用过本地版的数据仓库。只是在工作过程中,使用了Azure SQL DB(SQL Server的PaaS版本)之后,又切换到SQL DW,在项目的角度来说,其备份策略也影响了项目的验收。SQL DW实际上并没有“备份”这一说法,它只有快.原创 2022-03-22 19:16:58 · 843 阅读 · 0 评论 -
【Azure Data Platform】数据平台的选择
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】Dedicated SQL Pool——导入性能测试(4)——总结本文谈一下数据平台的选择前言云计算已经被广泛接受和使用,那么在关于数据平台方面,很多人会关心数据库,数据仓库,和数据湖的关系,我们都看重数据,也希望使用数据,很多时候我们已经有数据了,但是由于数据的产生形式不一样,数据的使用和存储都有不一样的要求。另外在工作中也有不少需求要选择数据平台,所以整理了一些关键因素。我们常用的数据.原创 2022-03-21 19:38:44 · 2796 阅读 · 0 评论 -
【Azure Data Platform】Dedicated SQL Pool——导入性能测试(4)——总结
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】Dedicated SQL Pool——导入性能测试(3)——Copy首先,我们需要知道SQL DW是一个MPP的系统。关于导入,为了最大限度地提高负载性能,负载会话应利用 MPP 体系结构直接连接到计算。SQL DW的每个计算节点(compute node)通过DMS服务,借助HDFS bridge来访问存储上的数据。这个过程,跟DWU有很大关系,如下图所示,每个DWU都有对应的read.原创 2022-03-21 19:37:39 · 576 阅读 · 0 评论 -
【Azure Data Platform】Dedicated SQL Pool——导入性能测试(3)——Copy
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】Dedicated SQL Pool——导入性能测试(2)——CTAS本文介绍SQL DW,也称Synapse Analysis,或者最新的Dedicated SQL Pool的外部导数工具的对比。–COPY INTO dbo.test_hash_cci_CopyFROM ‘https://sago02easshalleyadls02.dfs.core.windows.net/halley.原创 2022-03-19 19:57:32 · 600 阅读 · 0 评论 -
【Azure Data Platform】Dedicated SQL Pool——导入性能测试(2)——CTAS
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】Dedicated SQL Pool——导入性能测试(1)——传统insert本文介绍SQL DW,也称Synapse Analysis,或者最新的Dedicated SQL Pool的外部导数工具的对比。--CREATE TABLE [dbo].test_robin_heap_ctasWITH (DISTRIBUTION = ROUND_ROBIN,HEAP)ASSELECT * .原创 2022-03-19 15:24:07 · 596 阅读 · 0 评论 -
【Azure Data Platform】Dedicated SQL Pool——导入性能测试(1)——传统insert
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】使用Azure Blob Storage Lifecycle Management归档数据本文介绍SQL DW,也称Synapse Analysis,或者最新的Dedicated SQL Pool的外部导数工具的对比。前言项目从前年开始使用SQL DW(我还是习惯用这个术语)...原创 2022-03-17 19:17:01 · 605 阅读 · 0 评论 -
【Azure Data Platform】使用Azure Blob Storage Lifecycle Management归档数据
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合本文介绍Azure Blob Storage的Lifecycle Management功能前言由于最近工作需要,临时加了任务,主要是降低ADLS的存储费用,除了直接删除或手动、编程移动到其他地方,还发现有一个可用的功能“Lifecycle Management”。所以这里整理和总结一下。Azure 存储是 Microsoft.原创 2022-03-14 19:25:23 · 753 阅读 · 0 评论 -
【Azure Data Platform】ETL工具(22)——Azure Databricks与ADF整合
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob本文演示如何整合ADF和Azure Databricks环境准备前面已经演示过如何创建ADF和Azure Databricks,下面来演示如何整合它们。首先对于Azure Databricks,先要创建集群(集群是基础),然后创建一个表。如下图导航:会出现一个新界面,提示创建新表的配置。可以通过.原创 2022-03-13 12:37:02 · 1620 阅读 · 0 评论 -
【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob
本文属于【Azure Data Platform】系列。接上文:【Azure Data Platform】ETL工具(20)——创建Azure Databricks本文演示如何通过Azure Databricks访问Azure存储环境准备在前面的ADF章节,我们已经创建过存储账户,所以这里直接使用。但是对于Databricks,则需要使用额外配置,这里用notebook和Scala语言来实现。创建Scala notebook前,先创建一个集群,使用前一篇的方式创建即可。然后按下图创建noteb.原创 2022-03-12 20:54:14 · 1112 阅读 · 0 评论