大数据组件优缺点

HDFS:优点(1)三个备份(2)流式数据访问,数据不容易被改写(3)适合存储大文件,小文件会增加NameNode的压力。
 缺点1) 适合数据批量读写,吞吐量高;
2) 不适合做交互式应用,低延迟很难满足;
3) 适合一次写入多次读取,顺序读写;
4) 不支持多用户并发写相同文件。
MapReduce 即将一个大任务分解为多个小任务(map),并行执行后,合并结果(reduce)
 优点分布式计算
  扩展性强,可以增加机器增强运算能力
  高容错性,单节点故障不影响整体计算
  适合海量数据离线计算
 缺点不适合实时计算和流式计算
  不适合DAG(有向图)计算,后一个应用程序的输入为前一个应用程序的输出的情况,每个mapreduce作业都会写入磁盘,造成大量磁盘io
YARN  
   
HBASE优点:大,上十亿行,上百万列
  面向列:列独立索引,列权限独立控制
  稀疏:对于值为null的列不占用空间,表可以设计地非常稀疏
  随机读写列
  优化了多次读写
 缺点单一RowKey固有的局限性决定了它不可能有效地支持多条件查询
  不适合于大范围扫描查询
  不直接支持 SQL 的语句查询
### 分布式计算在处理大数据时的缺点 尽管分布式计算框架提供了强大的数据处理能力和效率提升,但在实际应用中也存在一些显著的局限性和挑战。 #### 资源管理复杂度增加 当涉及到大量节点协同工作时,管理和调度这些资源变得异常复杂。这不仅增加了系统的配置难度,还可能导致性能瓶颈或资源浪费的情况发生[^2]。 #### 数据一致性维护困难 由于多个节点并行操作同一份数据副本,在保持全局视图的一致性方面面临巨大挑战。尤其是在高并发场景下,如何有效地解决冲突、保证事务隔离级别等问题变得更加棘手[^3]。 #### 故障恢复成本高昂 虽然理论上通过冗余设计可以提高系统的可靠性,但实际上一旦某个组件出现故障,则可能引发连锁反应影响整个集群稳定运行;而且为了实现快速有效的错误检测与自动修复机制往往需要额外投入较多的人力物力支持[^1]。 #### 初始部署和技术门槛较高 对于初次接触的企业来说,构建一套完整的分布式架构所需的知识体系庞大且深奥难懂,从硬件选型到软件环境搭建再到后期运维监控等一系列环节都存在一定技术壁垒,这对团队成员的技术水平提出了更高要求[^4]。 ```python # Python伪代码展示部分可能出现的问题 try: # 假设这里是在执行某些跨节点的操作 result = distributed_computation() except Exception as e: print(f"Error occurred during computation: {e}") finally: # 清理资源, 尝试重新同步状态 cleanup_resources() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值