Baika ，印度公司FreshWork的Data Lake实践

最新推荐文章于 2024-08-22 17:55:26 发布

FYS_CMSS

最新推荐文章于 2024-08-22 17:55:26 发布

阅读量892

点赞数

文章标签： DataLake Hadoop

数据和信息之间相互联系，数据反映客观事物属性的记录，是信息具体表现形式，数据经过加工处理之后，就成为信息，没有数据就不会产生信息。不同业务都会从不同的数据源中获取大量的数据，随着业务逻辑的复杂化及数据源多样化，每天都会产生TB级别的数据。在大数据时代，数据无疑是企业和个人最重要的资产，但是业务收集、使用和使用数据过程中，数据隐私和数据安全是目前企业使用数据是需要考虑的比较敏感的问题。

业务平台在运行过程中，数据科学家、机器学习、用户、产品部门、业务操作部门都会使用收集到的数据进行解读、分析及创建模型，但是目前仅有IT部门有访问数据的权限，其他部门需要通过IT部门来使用数据，这需要大量时间来执行走完数据使用流程，包括数据安全及隐私保护的工作。

目前可以通过搭建数据湖来达到多部门及用户的数据共享，数据湖被定义为一种区别于原始数据仓库的数据存储架构，以原生格式保存大量的原始数据，可以包含结构化、非结构化数据，直到数据被使用的时候再进行处理。数据湖形象的表述为自然状态下的巨大水体，汇聚不同数据源的溪流、包括大量的无序的非结构化数据（文本、图片、声音及网页等），其存储大量原始数据，支持所有数据类型，不同用户根据业务需求、使用场景来发掘数据价值。建成数据湖需要解决的问题包括：

Ø 海量数据的存储（建湖）

Ø 数据的汇聚（引水）

Ø 数据的处理和分析（利用）

Ø 满足不同客户端而需求（价值）

使用Apache Hadoop可以解决构建数据湖所遇到的所有问题，包括数据的采集、预处理及使用等。FreshWork使用Hadoop生态系统的各组件搭建了数据湖产品Baika,下面进行介绍。

在FreshWork公司内部，每个业务生成的数据都存储在隔离的区域从而形成了数据孤岛，该业务的项目团队才有使用数据的权限，其他项目团队很难访问到这部分数据。为了在工作中能够挖掘商业模式，进一步做分析决策，需要所有的项目团队根据需要便捷的获取数据，合并数据孤岛，Fresh works在AWS上使用Cloudera搭建了可扩展的数据知识库（数据湖），其提供了数据存储、处理及分析的统一数据平台，使用该数据平台可以基于这些数据进行数据挖掘分析。其系统架构图如下所示：

数据平台从所有的业务平台及外部数据源获取数据，包括结构化和非结构化数据，将其存储到可查询的存储系统中。如上图所示，在平台中使用了多种数据分析/处理框架，如Apache HBase、Apache Hive、Apache Hive、Apache Pig、Impala、Apache Spark等各种组件，不局限于做简单的数据查询及数据抽取，而是实现更深入的数据分析的企业级数据平台。

在初始时，Baika使用S3-based的数据湖，数据保存在S3中，查询数据的集群根据需要进行动态扩展和伸缩。为了实现严格安全规范、细粒度的访问控制及控制集群成本，Fresh Works在企业内部搭建了上图所示的内部数据湖，对应上面所列举的数据湖要解决的问题，Baika给出了相应的解决方案：

1）数据收集

FreshWorks中的数据源包括RDS、S3及自定义数据源，在Baikal中使用AWS及ClouderaStack技术开发data pipelines从这些数据源周期性的收集数据。在某些用例中，开发自定义Connectors来收集数据，并将这些数据写入到Hadoop分布式存储系统（HDFS）及Apache HBase。