大数据的价值在于,我们可以通过大量的数据分析形成有用的信息和结论,指导改进业务流程、推动创新或预测市场趋势等。
保障大数据安全需要考虑3个节点:
- 在执行数据传输过程中,将数据从源位置移动进行存储或实时提取(通常在云端)。
- 保护大数据通道存储层中的数据(如 Hadoop 分布式文件系统)
- 确保输出数据(如报告和仪表盘)的保密性,这些数据包含通过Apache Spark等分析引擎运行时收集到的。
在这些关键环节中的安全威胁类型包括:不恰当的访问控制、分布式拒绝服务 (DDoS) 攻击、生成虚假或恶意数据的端点,或在大数据工作负载期间使用的库、框架和应用程序中的漏洞。
二、大数据安全会面临的挑战?
由于所涉及的架构和环境的复杂性,大数据安全面临诸多挑战,比如:
- 使用最初设计时并未考虑安全性的开源框架(如 Hadoop);
- 依赖分布式计算来处理数据集,这意味着有更多系统可能出现问题;
- 确保从端点收集的日志或事件数据的有效性和真实性;
- 控制内部人员对数据挖掘工具的访问并监控可疑行为;
- 难以运行标准安全审计;
- 保护非关系NoSQL 数据库。
三、保护大数据的10个最佳做法
1、加密
静态数据和传输数据的可扩展加密对于跨大数据管道实施至关重要。 可扩展性是这里的关键点,除了NoSQL之类的存储格式外,还需要跨分析工具集及其输出加密数据。加密的威力在于,即使威胁者设法拦截数据包或访问敏感文件,实施良好的加密过程会使数据无法读取。
2、用户访问控制
获得访问控制权可以针对一系列大数据安全问题提供强大的保护,如内部威胁和过度特权。基于角色访问可以控制对大数据管道多层访问,比如,数据分析师可以访问 R 等分析工具,但他们不可以访问大数据开发人员使用的工具,例如 ETL 软件。最小权限原则是访问控制的一个很好的参 考点,它将访问权限限制为仅访问执行用户任务所必需的工具和数据。
3、云安全监控
大数据工作负载所需的固有大存储量和处理能力,使大多数企业可以将云计算基础架构和服务用于大数据。尽管云计算很强大,但是暴露的 API 密钥、令牌和错误配置也是云计算中值得关注的风险。如果有人将 S3 中的AWS数据湖完全开放,并可供互联网上的任何人访问怎么办?通过自动扫描工具快速扫描公共云资产,以查找安全盲点,从而更容易降低风险。
4、集中密钥式管理
在复杂的大数据生态系统中,加密的安全性需要一种集中的密钥管理方法,以确保对加密密钥进行有效的策略驱动处理。集中式密钥管理还保持了对从创建到密钥轮换的密钥治理的控制。 对于在云中运行大数据工作负载的企业,自带密钥 (BYOK) 可能是实现集中密钥管理的最佳选择,无需将加密密钥创建和管理的控制权移交给第三方云提供商。
5、网络流量分析
在大数据管道中,数据接收来源很多,且有恒定流量,其中包括来自社交媒体平台的数据和来自用户端点的数据。网络流量分析,提供了对网络流量和任何潜在异常的可见性, 例如来自物联网设备的恶意数据或正在使用的未加密通信协议。
6、 内部威胁检测
在大数据的背景下,内部威胁对公司信息的机密性构成挑战。 有权访问分析报告和仪表盘的恶意内部人员可能会向竞争对手泄露信息,甚至提供登录凭据进行销售。内部威胁检测,就是检查常见业务应用程序的日志,例如 RDP、VPN、Active Directory 和端点。这些日志可以揭示值得调查的异常情况,例如意外的数据下载或异常的登录时间。
给大家的福利
零基础入门
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
同时每个成长路线对应的板块都有配套的视频提供:
因篇幅有限,仅展示部分资料
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!