自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式 的庞大的数据,任意的格式甚至非结构化的处理。
Hadoop 的限制
Hadoop 只能执行批量处理,并且只以顺序方式访问数据。这意味着必须搜索整个数据集, 即使是最简单的搜索工作。当处理结果在另一个庞大的数据集,也是按顺序处理一个巨大的 数据集。在这一点上,一个新的解决方案,需要访问数据中的任何点(随机访问)单元。
Hadoop 随机存取数据库
应用程序,如 HBase,Cassandra,CouchDB,Dynamo 和 MongoDB 都是一些存储大量数据和 以随机方式访问数据的数据库。
Hadoop 的特点:
对于任意格式的庞大数据集,Hadoop 可以做到安全存储 但是对于需要在庞大数据集做针对于单条记录的增删改查是做不到的。
Hive 的特点:
对于存储在 HDFS 上的结构化的数据,如果增加一些描述这些数据的元数据信息,那么我们 可以把存储在 HDFS 上的数据抽象成一张二维表格,使用 Hive 进行各种 Insert/Select 操作。 但是 Hive 还是天生不支持对于单条记录的增删改查,也不是设计用来做单条记录的增删改 查的。