部署定制化的Azure HDInsight 集群及相关参数的优化



近期帮客户部署了一套基于Azure HDInsight的大数据项目,该系统一共部署了25A7节点的HDInsight的集群,整个集群的资源为200Core/1.4T内存.

HDInsight是微软Azure 上提供的Hadoop集群PAAS服务,它给客户带来的最主要的价值在于:

  1. 快速/按需部署HADOOP集群。通常用户要在本地数据中心或IDC部署一套HADOOP集群,需要部署相应的服务器/网络设备,安装操作系统,安装/配置HADOOP的系统软件等,工作量还是很大的。而基于HDInsight用户可以通过Azure的管理门户,输入一些简单的参数或是通过PowerShell脚本快速创建Hadoop集群。

  2. 同时支持HDFSBlob存储。这是HDInsight和本地部署Hadoop很不一样的地方。HDInsight除了支持HDFS,也支持把要处理的数据放在AzureBlob存储中(Azure推荐的方式)。这点对用户最大的好处在于,用户即便把HDInsight集群删除掉,相关数据不受影响。新建的HDInsight集群可以直接继续处理原有数据。另外,多个HDInsight的集群可以处理同一份数据。

  3. HDInsight可以按需部署/停用/伸缩。Azure上的服务通常是按资源使用的量来付费,即用多少付多少,HDInsight也是如此。典型的场景是用户并不需要7*24使用HADOOP来做计算处理,这样用户可以选择在需要的时候新建集群,而计算完成后删除集群,原始数据和结果集都在AzureBlob存储中。一个25个节点的集群大约在半个小时以内可以部署完成。

  4. HDInsight可以定制化。定制化体现在两个方面,一方面HDInsight相关配置参数(CoreSiteyarnSite/Mapreduce/hive等)可以直接使用系统默认,也可以根据实际应用的需要在创建的时候指定;另一方面,客户可以根据需要在HDInsight的节点上部署相关的应用,比如部署R语言/部署Solr等。

 

接下来,我从以下几个方面介绍在实际部署HDInsight集群中几个常见的需求及解决方案:

  1. 通过PowerShell脚本部署HDInsight集群

  2. 关于资源调用的问题及解决办法

  3. 解决集群迁移过程中元数据的导入/导出和迁移问题

  4. 如何调整和固化相关参数

  5. 调整HDInsight集群的时区及对HDInsight进行定制化

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值