我们很荣幸能够见证Hadoop十几年间经历了从无到有,再到称王。感动于技术的日新月异时,希望通过本篇有问有答,带大家解决Hadoop的常见问题。
1
Q:Hadoop的发展史?
A:
2
Q:Hadoop的核心组件
A:分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)
3
Q:HDFS的文件系统
A:
4
Q:如何选择不同的文件格式用于存储和数据处理?
A:关键设计理念之一就是相关文件格式要基于
1)使用模式 例如, 访问50列式存储当中的5列式存储vs 访问大部分的列式存储。
2)并行处理分裂性。
3)块压缩节省存储空间VS 读/ 写/转换/ 功能.
4)架构演变过程中添加字段/修改字段/重命名字段。
5
Q:非大数据的项目能否用Hadoop?
A:非大数据项目是否可以用Hadoop的关键问题在于是否有海量数据的存储,计算,以及分析挖掘等需求,如果现有系统已经很好满足当前需求那么就没有必要使用Hadoop,没有必要使用并不意味这不能使用Hadoop,很多传统系统能做的Hadoop也是可以做的,例如使用HDFS来代替LINUX NFS,使用MapReduce来代替单服务器的统计分析相关任务,使用Hbase代替MySQL等关系数据库等,在数据量不大的情况下通常Hadoop集群肯定比传统系统消耗更多的资源。
小伙伴们冲鸭,后台留言区等着你!
关于Hadoop,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?
推荐学习文章:Kafka教程