海量数据处理概述

最新推荐文章于 2024-09-08 10:40:56 发布

honey_yyang

最新推荐文章于 2024-09-08 10:40:56 发布

阅读量665

点赞数

文章标签：扩展数据库 hbase 数据仓库数据分析 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/honey_yyang/article/details/7890856

版权

本文概述了海量数据处理的特点和需求，指出传统关系数据库的局限性，并对比了关系数据库与Hadoop/Hive。重点介绍了Hadoop分布式文件系统和HBase分布式数据库的设计目标、主要特点以及适用场景。Hadoop适合数据仓库和数据挖掘，而HBase则适用于大规模实时数据处理和数据分析。

摘要由CSDN通过智能技术生成

海量数据处理概述

海量数据的特点

（1）巨大的数据量
（2）数据集特点
--超过80%的数据是非结构化的
--数据量在持续增加
--数据需要长时间存储，非热点数据也会被随机访问

（3）传统技术无法胜任大数据集的分析，管理和挖掘
--传统欢喜数据库以及一些桌面BI软件处理的结构化数据在GB级别，无法从更大的数据中发现有意义的信息
--需要处理的目标数据量一直在增长，传统技术无法适应这种扩展性

海量数据处理系统的需求

（1）需要增量式，几乎无限的扩展性
（2）要求系统总是在线运行
（3）需要灵活可动态改变的数据模型
经验教训
（1）数据需要被切分和复试
（2）不要使用分布式事务处理

由于关系数据库的理论局限性，需要新的架构

软件体系架构上的局限
（1）CAP定理-3选2
一致性consistency
可用性availability
容忍网络分离partition-tolerance
（2）RDBMS专注于实现一致性而忽视其他
网络分段隔离（network partitions）在大型系统中不可避免
系统扩展时性能和可靠性下降
（3）scale up
并行数据库的扩展性
--经验：当集群节点数每增加4——16台，每个节点的效率下降一半，无法扩展超过40个节点

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
海量数据处理概述

海量数据处理概述海量数据的特点（1）巨大的数据量（2）数据集特点--超过80%的数据是非结构化的--数据量在持续增加--数据需要长时间存储，非热点数据也会被随机访问（3）传统技术无法胜任大数据集的分析，管理和挖掘--传统欢喜数据库以及一些桌面BI软件处理的结构化数据在GB级别，无法从更大的数据中发现有意义的信息--需要处理的目标数据量一直在增长，传统技术无法
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。