大数据组件优缺点

最新推荐文章于 2023-07-17 13:38:14 发布

沙拉控

最新推荐文章于 2023-07-17 13:38:14 发布

阅读量573

点赞数

分类专栏：大数据面试

本文链接：https://blog.csdn.net/qq_38899793/article/details/117218154

版权

3 篇文章

订阅专栏

HDFS：	优点	（1）三个备份（2）流式数据访问，数据不容易被改写（3）适合存储大文件，小文件会增加NameNode的压力。
	缺点	1) 适合数据批量读写，吞吐量高； 2) 不适合做交互式应用，低延迟很难满足； 3) 适合一次写入多次读取，顺序读写； 4) 不支持多用户并发写相同文件。
MapReduce		即将一个大任务分解为多个小任务（map），并行执行后，合并结果（reduce）
	优点	分布式计算
		扩展性强，可以增加机器增强运算能力
		高容错性，单节点故障不影响整体计算
		适合海量数据离线计算
	缺点	不适合实时计算和流式计算
		不适合DAG（有向图）计算，后一个应用程序的输入为前一个应用程序的输出的情况，每个mapreduce作业都会写入磁盘，造成大量磁盘io
YARN

HBASE	优点：	大，上十亿行，上百万列
		面向列：列独立索引，列权限独立控制
		稀疏：对于值为null的列不占用空间，表可以设计地非常稀疏
		随机读写列
		优化了多次读写
	缺点	单一RowKey固有的局限性决定了它不可能有效地支持多条件查询
		不适合于大范围扫描查询
		不直接支持 SQL 的语句查询