hardoop 入门

本文介绍了Hadoop计算框架,包括MapReduce、JStorm和Spark。Hadoop是分布式计算框架,具有易编程、高容错和高拓展性。HDFS作为其分布式文件系统,具有高容错性,适合大数据处理,但也存在低延迟数据访问和小文件存取等缺点。在选择Hadoop版本时,通常建议使用2.x版本。
摘要由CSDN通过智能技术生成

hardoop 入门

标签(空格分隔): hardoop



hadoop 计算框架

  1. MapReduce
    • 离线型计算框架
    • 分布式计算框架
    • 易编程,高容错,高拓展
  2. JStorm
    • 使用JAVA实现的storm流式计算框架
  3. Spark
    • 内存计算框架,并行计算框架
    • 参考资料少,成熟框架但发行晚,因此使用量较少
    • 发展趋势(计算速度快,不写入HDFS直接写入内存)

HDFS

优点

  1. 高容错性
    • 数据自动保存多个副本
    • 副本丢失后,自动恢复
  2. 适合批处理(对各种计算框架兼容性好)
    • 移动计算而非数据
    • 数据位置暴露给计算框架
  3. 适合大数据处理
    • GB 、TB 、甚至PB 级数据
    • 百万规模以上的文件数量
    • 10K+ 节点
  4. 可构建在廉价机器上
    • 通过多副本提高可靠性
    • 提供了容错和恢复 机制

缺点

  1. 低延迟数据访问
    • 比如毫秒级
    • 低延迟与高吞吐率
  2. 小文件存取
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值