HDinsight 视频学习总结

HDinsight

HDinsight 是一个 open source eco-system.
里面搭载了很多目前市场上非常前卫的大数据应用和软件。
目前HDinsight 在市场上的优势是 open source,Customizable ,extensible,Enterprise ready,managed 和 secure。
当然开发人员最注重的是里面的 High avaiablity, mutiple gateways, self-healing system, monitored and supported by microsoft.
HDinsight 与 Azure其他各个产品 有着深度集成。高兼容性。
据说是self-healing技术也是非常强大的,在很多问题发现之前就已经被解决了。这也是其中的一大卖点。

本次学习记录是根据b站视频 微软v课堂 hdinsight 企业数据分析
https://www.bilibili.com/video/BV1nJ411R7vm/?spm_id_from=333.788.videocard.1

HDinsight 6 大考虑问题以及解决方案

  • Analytics Workloads
  • Storage
  • Security
  • Monitoring
  • Cost Control
  • Migration

Analytics Workloads

有关 Analytics Workloads,一般分为批处理和流处理。

批处理

HDinsight 给出的批处理解决方案有2个, 分别是 使用 spark 和 hive。

Spark - 构建目的是建造通用大数据处理引擎

  • 支持 批处理 流处理 交互式查询
  • 一站式
  • 数据放在内存中, 提供更好性能,
  • 专为ETL 和机械学习所打造
  • 还有 GraphX 库

Hive- 是通过数据仓库衍生而来的

  • 拥有数据仓库独有功能,materialized views ,automatic caching, 基于行或者列的权限控制
  • 多用户共同使用场景所设计,
  • 拥有高并发性。

下面两张图分别为 spark 和 hive的不同优点以及何时选取spark 和 hive
在这里插入图片描述
在这里插入图片描述

以上两张图分别截取与原学习视频

流处理

HDinsight 给出的流处理解决方案有2个, 分别是 使用 spark streaming 和 storm。
根据视频所属 HDInsight 4.0 已经不支持storm了。 一站式的spark 开发出的新功能 Spark continues streaming 已经逐渐取代了storm的位置。
微软这里也是强烈推荐 spark。

Spark streaming

  • 拥有更好的 through put
  • Spark continues streaming - 低延迟

Storm

  • 无延迟处理 或者低延迟 event
  • 社交媒体 或者 订单

Storage 存储

HDInsight给出了 3个 有关存储的解决方案,分别是 ADLS Gen 1,ADLS Gen 2, 和 HBase。
这里给我的感觉 Gen 1 已经基本上被Gen 2取代。Gen 1 的话 可能是给一些老用户 不方便做 migration 或者 正在做 migration 所保留的吧。(这里只是猜测)
Gen2

  • 适合分析类应用
  • 可预估延迟
  • 高through put 高达每秒 200g/s
  • 可把用户 credential entity 从客户到传递到存储端
  • 可支持 大数据分析一些需要的功能 automatic rename
  • 使用rename blobs 加快读速

HBase

  • 包含大量 写操作
  • 读写速度快
  • 延迟要求
  • Accelerated write - read had log 直接写在manage disk上 大幅度减小延迟

下面图描述了各个的优势 还有 为什么 给Gen1, blob storage 用户的建议是做 data migration 去 gen2.
在这里插入图片描述

图片来自原学习视频。

Security 安全

对于HDInsight的安全性能,这里很多道关卡。
可以根据用户自定义所设置。
数据保护, middleware这些年用来自定义保护软件功能也是非常强大的。
网络安全性能也相当可靠。
进站流量 出站流量 认证授权
在这里插入图片描述

图片来自原学习视频。

Monitoring

Azure 一直以来都有一个非常强大的可视化系统,可显示流量在每个虚拟机上的分部,数据监控,等等强大功能。
保持全部解决方案的健康

Cost Control 成本控制

利用足够的数据,可以最大化利用每个虚拟机的资源分配,为用户节省每一笔钱。
在有必要的情况下可以自动作出 upgrade 和 downgrade。

Migration

便利支持 数据库的 data migration。

HDinsight 4大应用模块 eco-system

  • Data Ingestion
  • Data prep/management
  • Advanced analytics
  • BI/Visualization

HDInsight的使用

说完了大概的东西,那么下面来说说,如何使用 HDInsight。
(又挖了个坑 回头来填)

总结

通过这次学习,知道了HDInsight的大概,内部模块构成,市场优势。
在不同的情况下选取不同的框架。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值