HDFS: | 优点 | (1)三个备份(2)流式数据访问,数据不容易被改写(3)适合存储大文件,小文件会增加NameNode的压力。 |
缺点 | 1) 适合数据批量读写,吞吐量高; 2) 不适合做交互式应用,低延迟很难满足; 3) 适合一次写入多次读取,顺序读写; 4) 不支持多用户并发写相同文件。 | |
MapReduce | 即将一个大任务分解为多个小任务(map),并行执行后,合并结果(reduce) | |
优点 | 分布式计算 | |
扩展性强,可以增加机器增强运算能力 | ||
高容错性,单节点故障不影响整体计算 | ||
适合海量数据离线计算 | ||
缺点 | 不适合实时计算和流式计算 | |
不适合DAG(有向图)计算,后一个应用程序的输入为前一个应用程序的输出的情况,每个mapreduce作业都会写入磁盘,造成大量磁盘io | ||
YARN | ||
HBASE | 优点: | 大,上十亿行,上百万列 |
面向列:列独立索引,列权限独立控制 | ||
稀疏:对于值为null的列不占用空间,表可以设计地非常稀疏 | ||
随机读写列 | ||
优化了多次读写 | ||
缺点 | 单一RowKey固有的局限性决定了它不可能有效地支持多条件查询 | |
不适合于大范围扫描查询 | ||
不直接支持 SQL 的语句查询 |
大数据组件优缺点
最新推荐文章于 2023-07-17 13:38:14 发布