hardoop 入门
标签(空格分隔): hardoop
hadoop 计算框架
- MapReduce
- 离线型计算框架
- 分布式计算框架
- 易编程,高容错,高拓展
- JStorm
- 使用JAVA实现的storm流式计算框架
- Spark
- 内存计算框架,并行计算框架
- 参考资料少,成熟框架但发行晚,因此使用量较少
- 发展趋势(计算速度快,不写入HDFS直接写入内存)
HDFS
优点
- 高容错性
- 数据自动保存多个副本
- 副本丢失后,自动恢复
- 适合批处理(对各种计算框架兼容性好)
- 移动计算而非数据
- 数据位置暴露给计算框架
- 适合大数据处理
- GB 、TB 、甚至PB 级数据
- 百万规模以上的文件数量
- 10K+ 节点
- 可构建在廉价机器上
- 通过多副本提高可靠性
- 提供了容错和恢复 机制
缺点
- 低延迟数据访问
- 比如毫秒级
- 低延迟与高吞吐率
- 小文件存取