数据湖

图片

什么是数据湖?

数据湖是一个集中式存储库,允许您以任意存储规模存储所有结构化或非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 - 从控制面板和可视化到大数据处理,实时分析和机器学习,以指导做出更好的决策 。

用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

EDL,企业级数据湖(原始数据的保存区)。

EDW,企业级数据仓库

BI,商业智能,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

**训练数据集:**就是训练模型的数据

**特征集:**就是特征的数据集合

图片

ODS存储来自各自业务系统(生产系统)的原始数据层

CDM为经过整合,清洗的数据。其中的DWS会中层,为面向主题的数据仓库,用于BI报表出

简单的来说:数据湖的定义就是原始数据保存区 虽然这个概念国内很少谈,但绝大部分互联网公司都已经有了,国内一般把整个HDFS叫做数仓(广义),即存放所有数据的地方。

为什么需要数据湖?

通过日志文件,来自点击流数据,社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习。这有助于他们通过吸引和留住客户,提高生产力,主动维护设备以及做出明智的决策来更快的识别和应对业务增长机会。

为什么做数据湖?区别在于?

数据湖和数仓,就是原始数据和数仓模型的区别。应为数仓(狭义)中的表,主要是事实表 - 维度表,主要用于BI,出报表,和原始数据是不一样的。

为什么强调数据湖呢?

  1. 正真的原因在于,data science 和 machine learning进入主流了,需要用原始数据做分析,而数仓的维度模型则通常用于聚合
  2. 另一方面,机器学习用到的数据,也不止于结构化数据。用户的评论,图像这些非结构化数据,也都可以应用到机器学习中

图片

数据湖背后还有更大的区别

传统数仓的工作方式是集中式的:业务人员给需求到技术团队,数据团队根据要求加工,开发成维度表,供业务团队通过BI报表工具查询。

数据湖式开放的,自助式的(self-service):开放数据给所有人使用, 数据团队更多是提供工具,环境个业务团队使用(不过集中式的维度表建设还是需要的),业务团队进行开发,分析。

也就是组织架构和分工的差别——传统企业的数据团队可能被当作IT,整天要求提数,而在新型的互联网科技团队,数据团队的负责提供简单的工具,业务部门直接进行数据的使用。人人具备数据分析能力。

因此 ,数据湖最大的意义,在于帮助团队组织架构调整,鼓励所有人了解,分析数据,降低出数类等“IT”型工作。当然,对传统企业而言,也是引入机器学习,用户画像的必须基础设备。

挑战

从传统集中式的数仓转换为开放式的数据湖,并不简单,会碰到很多问题。

**数据发现:**如何帮助用户发现数据,了解数据?

**数据安全:**如果管理数据的权限和安全?因为一些数据是敏感的,或者不应直接开放给所有人(比如电话号码,地址等)

数据管理 : 多个团队使用数据,如何共享数据成果(比如画像,特征,指标),避免重复开发

这也是目前各大互联网公司都在改进的方向

比如,对数据发现,目前的解决方案就是Data catalog,典型的比如IBM Watson catalog(算是对传统元数据管理的改进)。对于机器学习方面的数据管理,可以看Airbnb的机器学习平台Big head中的实践

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值