自学大数据（一）

最新推荐文章于 2024-04-27 21:04:07 发布

起风哥

最新推荐文章于 2024-04-27 21:04:07 发布

阅读量446

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/a807719447/article/details/104085534

版权

2 篇文章 0 订阅

订阅专栏

几年前茶余饭后与一大数据工程师同事聊天吹水得时候，听同事侃侃而谈大数据，感觉很牛B得样子。同事培训机构刚出来1年，薪资就有就有12k，而自己4年工作经验也才12.5k，感觉做大数据得真的很牛B。本着求知的心态，经常听他科普大数据。

开始我们聊数据存储，也就是HDFS，同事说：“这东西叫分布式文件存储，就是把文件通过计算存储到3块磁盘上，假如其中一块磁盘坏掉了可以通过其他磁盘恢复，3块磁盘是最低要求”。
听到这我本着自己原有的知识面在想，尼玛这不是RAID（磁盘阵列）吗？

于是乎想当然的觉得大数据就应该用这技术，原来HDFS就是磁盘阵列技术。然而自己也并没有深入去查资料，总觉得自己不会往这个方向发展，只不过是了解点技术罢了。

时至今日，感觉自己遇到了技术瓶颈需要继续深入拓展和亟待学习新的技术，准备自学下大数据。查阅了相关资料之后发现，HDFS并非之前同事所说的那般，并且Hadoop官方还不推荐使用raid。

raid是将一个完整的信息，通过计算分别存储在不同的磁盘上，这样可以有效利用磁盘空间和高效读取，但是存储一份数据是分在多个磁盘下。

而HDFS则是将一个完整的数据备份三分存储在三块磁盘上，每个磁盘上存储了一份完整的数据。当然这么说并不完全正确，事实上是将一个大文件分块，然后将一个分块备份三份存储到三个不同磁盘上。

raid在一块磁盘上拿不到任何完整的数据，而HDFS在每一块磁盘上都可以拿到完整的部分数据。
raid省磁盘数据多大它就占用多大空间，可能多存储点校验信息，而HDFS耗费大量存储空间。假设1T的数据，在Raid情况下他就占1t的存储空间，而HDFS需要3T。
raid和HDFS都是为了解决磁盘的横向拓展问题。

关于raid的特性大家自己拓展了。
总而言之，HDFS不是Raid的概念。HDFS是通过分块并备份数据达到目的，本质上与raid不同。

我估计那同事可能也是一知半解的状态。所以吹的水略有偏差。
当然查阅了下相关资料，脸书等公司还是有HDFS-Raid的解决方案。当然当你的数据量能达到需要通过省磁盘来节省开销的时候可以考虑相关方案，现在嘛还是一步步来。