大数据技术概述

最新推荐文章于 2024-08-03 21:06:26 发布

m0_74931390

最新推荐文章于 2024-08-03 21:06:26 发布

阅读量404

点赞数

文章标签：数据仓库数据库大数据

本文链接：https://blog.csdn.net/m0_74931390/article/details/127744889

版权

本文概述了大数据技术的发展，强调了由于互联网、云计算等技术的快速发展导致数据量剧增，传统技术难以应对。讨论了分布式缓存、分布式数据库、分布式文件系统和NoSQL等新技术，以及如何利用CAP定理进行系统设计。提到了如memcached、Greenplum、Hadoop、Hive、HBase等工具在大型互联网公司的应用，并探讨了NoSQL在统计分析和事务处理等方面的挑战和解决方案。

摘要由CSDN通过智能技术生成

Big Data（大数据技术）是近来的一个技术热点，但从名字就能判断它并不是什么新词。毕竟，大是一个相对概念。历史上，数据库、数据仓库、数据集市等信息管理领域的技术，很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。

然而，Big Data作为一个专有名词成为热点，主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互……要处理的数据量实在是太大、增长太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本无法应付。

在这种情况下，技术人员纷纷研发和采用了一批新技术，主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。

10年前，Eric Brewer提出著名的CAP定理，指出：一个分布式系统不可能满足一致性、可用性和分区容忍性这三个需求，最多只能同时满足两个。系统的关注点不同，采用的策略也不一样。只有真正理解了系统的需求，才有可能利用好CAP定理。

架构师一般有两个方向来利用CAP理论。