基于HDP构建企业数据平台

上一篇文章中,我们聊到了对数据平台的理解以及企业数据平台的建设思路。

经过分析,可以了解到,数据平台应该是一定程度的中心化的系统,是团队对于数据接入、数据建模、数据清洗、数据开发过程的工程化经验的沉淀。

它可以:

  1. 解决数据管理问题。如数据安全问题,包括访问控制、数据脱敏等;如数据质量问题,包括数据一致性、数据正确性等,如数据发现问题,包括数据查找、元数据管理等
  2. 为数据开发提供支持,包括代码编写、调试、测试、分布式运行、大数据量下的代码性能分析与优化、数据任务调度等
  3. 为数据分析提供支持,帮助数据分析师、建模师解决开发环境及资源调度问题,提供友好的界面辅助他们进行探索式数据分析,让他们可以集中精力于数据分析过程

要在企业环境中进行数据平台建设,可以采用精益的思想作为指导,采用以下步骤:

  1. 基于开源软件搭建具备基本功能的数据平台,可以采用的软件如CDH系列组件(基于Hadoop分布式计算和存储构建)
  2. 在需求拉动下进行数据平台功能完善。如基于指标开发、客户画像开发或机器学习模型开发等某一具体需求,以一种类似软件重构的方法进行平台功能抽象、沉淀与复用。

在项目中落地

以上是关于数据平台的一些基本的思考,如何将这些想法进行落地呢?本文希望借着最近在一个客户项目上的数据平台方面的探索和实践,给大家分享一下我们的一些经验。

开源数据平台方案

前面提到的数据平台包含了非常丰富的功能,比如分布式数据计算、安全控制、元数据管理等。得益于数据应用已经有数十年的发展过程,特别是近十年来分布式数据存储和计算发展的拉动,这些方面大多有不错的开源产品支持了。

当下业界首选的基础开源数据平台要数基于Hadoop分布式技术的CDH和HDP了。CDH是由Cloudera公司出品的一个Hadoop大数据平台发行版,它内部集成了多个数据工具,如元数据管理工具、数据探索工具、任务调度工具、数据安全工具、数据开发工具等。同时CDH提供了一整套可视化的安装界面,可以让我们通过在网页操作就能实现一套分布式大数据环境的搭建。HDP来自曾经的Hortonworks公司,HDP其基本功能与CDH类似,但提供版本更新的Hadoop相关组件,且全部基于来源软件进行构建(CDH部分软件没有开源)。当前Hortonworks已与Cloudera合并,两者相互促进,想必会让整个大数据生态的发展提速不少。

在这个项目里我们选择了完全开源的HDP大数据平台作为基础平台进行客户企业数据平台的构建。

HDP数据平台简介

HDP数据平台长什么样包含什么样的功

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值