azure
Azure之类的超大规模云服务旨在处理大量数据,在购买存储硬件时会利用其规模经济优势。 他们与必应(Bing)和Google等搜索引擎的密切关系使他们可以基于为分析公共互联网而开发的算法和工具。 这种结合使它们成为构建需要处理海量数据集的应用程序的理想平台,而这在您自己的数据中心中是无法实现的。
自成立之初,Microsoft就在Azure上提供了一系列数据和分析服务,从其自己SQL数据库(该数据库很快成为了熟悉SQL Server的云托管版本)开始,为Hadoop和其他Apache数据服务添加了HDInsight,以及提供了一个大型数据湖,可让您混合结构化和非结构化数据。 直到最近,这些服务中的大多数还是独立的,如果您想将它们组合在一起,则需要构建自己的分析工具。 在Ignite 2019上 ,Microsoft将Azure现有SQL数据仓库作为Azure Synapse进行了发布 ,重新组织和重新命名,从而增加了对Apache Spark及其自己的Studio开发和分析工具的支持。
引入Azure Synapse
Azure Synapse 不仅仅是对现有产品的品牌重塑 ,其重点是将许多Azure的数据分析功能集成到单个服务中。 与传统的数据仓库不同,它支持混合的关系数据和非结构化数据,同时仍然允许您使用现有SQL技能来构建和测试分析模型,并基于Azure SQL的PolyBase大数据查询引擎。 因为它使用内存中的列存储,所以它快速高效,这是使用云服务使用模型时的重要功能。
Synapse与其他数据仓库产品的不同之处在于其源于Azure SQL的hyperscale选项 。 它使用Microsoft称为“数据仓库单元”的群集,而不是由单个计算节点处理所有查询。 这些独立于基础存储的查询计算,使Synapse可以采用海量数据并行方法来处理您的查询。 每个数据仓库单元都具有计算和自定义应用程序,即数据移动服务,该应用程序跨节点并与Azure存储一起使用,以确保在正确的节点中可获得正确的数据。 肯定很快; Ignite的一个演示将其与30 PB数据集上的Google Big Query进行了比较,并显示Synapse的速度提高了75倍。
这种架构也有价格优势。 与Azure的Paas功能一样,它基本上是无服务器的,可以按需旋转,并在不再需要时暂停。 这样,您只需为用于运行查询和基础存储的计算付费,并根据需要添加更多计算以进行更复杂的分析。
Azure Synapse SQL池入门
为Azure Synapse创建新SQL池遵循与Azure数据仓库相同的路径。 首先在Azure门户中创建新SQL数据仓库资源。 这使您可以创建具有登录名和密码的新服务器。 选择性能级别将选择默认服务器类型,该服务器类型将设置池的计算成本。 设置好并设置了适当的防火墙规则后,您可以选择SQL Server管理工具开始对其进行管理。 查询是使用熟悉的T-SQL方言构建的。 您可以使用PolyBase 将Azure blob存储中的数据加载到暂存表中,该暂存表用于构建生产表,然后将这些表用于查询。
如果您更喜欢使用Apache Spark分析数据,则该平台将与Apache Spark而不是SQL一起使用。 这种方法为您提供了额外的灵活性,使您可以为问题选择适当的工具。
如果您有现有的Azure SQL数据仓库实例,则可以在Azure Synapse中运行它,从而为使用关系数据和非关系数据的复杂数据集提供了更多选择。 有趣的是,Microsoft承诺与Open Data Initiative来源集成,其中应包括对Adobe的Marketing Cloud,SAP以及Microsoft自己的Dynamics平台中数据的支持。 Microsoft正在计划用于其他数据源(包括第三方)的连接器。
在Synapse Studio中构建查询
Synapse Studio是新的组合分析平台的关键元素。 它充当一个单一的窗格,用于构建,测试和查看查询结果。 您可以将其与代码一起使用,也可以不与代码一起使用,在运行查询和构建报告之前选择并选择不同的表和源。 可以将同一工具与一次性查询一起使用,以帮助解决特定问题,也可以构建重复查询,这些重复查询可以使用Azure Data Factory进行自动化 ,在其中您需要获取各种数据源的常规报告。
一个有用的功能是Azure Synapse与Power BI的集成。 数据分析师可以使用Azure Synapse构建可以移交给业务分析师的模型,后者可以使用Power BI的可视化分析工具来构建和运行自己的查询,以查找与自己的兴趣相关的结果。 这种方法减少了找到特定业务问题答案的时间,因为数据团队无需在业务分析师完善其查询的同时不断重建模型并运行昂贵的分析流程。 Power BI集成将确保可以将使用机器学习和其他Azure服务的预建查询内置到执行人员仪表板中,以近乎实时地访问关键业务指标。
从分析到机器学习
访问诸如Azure Synapse中的大型数据存储区可以帮助训练您自己的机器学习模型。 Synapse的Studio开发工具包括一个类似于Jupyter Notebook的草图板,用于在Azure机器学习管道中使用新模型之前对其进行构建和测试。 支持R统计数据探索语言以及机器学习的主要工具Python。
Microsoft将Azure Synapse描述为“ PB级”平台。 我们大多数人不需要如此规模的工作,但是以那种规模提供结果的工具可以与非常小的数据集以及来自IoT设备的流数据同样有效地工作。 Microsoft建议对大于1TB的数据使用Azure Synapse,最小数据集大小为250GB。
通过Azure Synapse可以启动相对较小且快速扩展的功能,以及与数据科学家和业务分析师以及数据库仓库专家共享数据仓库中的数据的能力,使其成为其他内部部署和内部部署的有吸引力的替代方案。云分析工具-尤其是可以选择在相同的基础数据集上使用特定于角色的工具。
翻译自: https://www.infoworld.com/article/3489176/a-look-at-azure-synapse.html
azure