数据湖入门 —— 什么是数据湖,数据湖又能干什么?

数据湖,确保了大数据和数据分析的安全。

关注《Java学研大本营》

什么是数据湖?- 类型

大数据或数据分析平台的主要部分之一是数据湖。它作为众多来源的原始数据的单一存储库。

我们面临的威胁是什么?- 风险描述

这就造成了单点故障的风险。这就是为什么威胁者有很大的动力去破坏存储在这个阶段的数据。

由于有多种工具,以及不同的用户群对ETL活动的贡献,存在各种攻击载体。

这些数据往往代表着高度敏感的个人信息,这些信息受到严格的监管。无法减轻网络攻击的威胁可能会导致潜在的数据泄露、知识产权损失和监管风险。

我们如何适应?--缓解/转变为安全心态

a) 在将新的数据集整合到数据湖之前,要明确如何管理、处理和消费数据

b) 根据数据的来源、历史、所有权、PII相关性、使用原因、位置以及其他敏感度和分类指标,建立明确的数据处理规则

c) 创建措施来验证数据质量

d) 在整个数据湖中创建各种级别的用户访问。基于角色的访问应以最小特权的原则来定义。

e) 考虑根据数据的类型和阶段引入不同的区域(例如,短暂数据的时间性,处理前的数据的原始性,验证后的数据的可信性,更容易访问,作为最终输出的丰富和操作过的数据的精炼性)。

f) 建立一个反映使用频率、更换频率和保留政策数据生命周期。很少使用的过期数据可以储存在档案馆内。没有明确使用情况的数据应以不可恢复的方式删除

g) 使用自我/客户管理的密钥,在所有级别上启用静态加密(例如,数据库加密、卷加密、S3桶加密)。

h) 定期轮换钥匙。一般来说,凭证应该只存储在一个保险库中。

i) 引入备份和灾难恢复功能。

启示

数据湖是一个组织内从各种来源收集宝贵的资产数据的地方之一。在可能的情况下,它应该是非常有兴趣的内置安全深度防御加上零信任政策是建议采取的方向。

参考:https://medium.com/interviewnoodle/securing-big-data-and-data-analytics-a1907d877829

推荐书单

《大数据导论》

购买链接:https://item.jd.com/12412086.html

《大数据导论》是了解和学习大数据的基础,本书系统地讲解了大数据基本概念、大数据的架构、大数据的采集方式和预处理、数据仓库的构建模式、大数据的存储,数据挖掘的方法及大数据的可视化技术,从而更好地将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,由浅入深进行学习,逐步理清大数据的核心技术和发展趋势。

本书系统地讲解了大数据基本概念,尽可能希望通过理论与实际案例相结合,寻找合适的切入点,让读者对理论知识的掌握更直接、更快速。可以作为培养应用型人才的课程教材,也适用于大数据初学者对大数据基础理论有需求的广大读者。

精彩回顾

如何在Java中执行Python模块?从认识JEP库开始

你不知道的Java日志性能大比拼!

Java面试宝典大集锦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值