摸不到Java的顶峰，咱就转战大数据，绝不在一棵树上吊死

最新推荐文章于 2024-05-05 00:00:00 发布

VIP文章搬砖不忘敲码人

最新推荐文章于 2024-05-05 00:00:00 发布

阅读量604

点赞数

分类专栏：程序员面试 java 文章标签： Java 程序员大数据面试

本文链接：https://blog.csdn.net/sqdmn/article/details/104032995

版权

这篇文章的目的是带那些对大数据不了解又有兴趣的人入门。如果你是老手可以忽略，或者想看看有没有不一样的东西也行。

我们学习一个新知识，第一步应该是给它个明确的定义。这样才能知道你学的是什么，哪些该学，哪些又可以先不用管。

然而，大数据虽然很火，但其实是个概念没那么清晰的东西，不同的人可能有不同的理解。

这次我们不去纠结具体的定义，也忽略那些 4 个 V、6 个 C 之类传统说教的东西，甚至不想聊架构演进以及各种调优的方法，这些东西讲了大家也不一定懂，懂了也记不住，记住了也用不起来。

我们也不去关注 AI、Machine Learning 那些炫酷的应用层面的东西，而是去看看大数据这栋房子的地基是什么模样。限于篇幅，很多技术细节点到即止，有兴趣的同学可以再按需了解，这也正是入门的含义所在。

一

首先第一个问题，大数据，大数据，多大叫大？或者换一个角度，什么时候需要用到大数据相关的技术？

这依然是个没有标准答案的问题，有些人可能觉得几十 G 就够大了，也有人觉得几十 T 也还好。当你不知道多大叫大，或者当你不知道该不该用大数据技术的时候，通常你就还不需要它。

而当你的数据多到单机或者几台机器存不下，即使存得下也不好管理和使用的时候；当你发现用传统的编程方式，哪怕多进程多线程协程全用上，数据处理速度依然很不理想的时候；当你碰到其他由于数据量太大导致的实际问题的时候，可能你需要考虑下是不是该尝试下大数据相关的技术。

二

从刚才的例子很容易能抽象出大数据的两类典型应用场景：

大量数据的存储，解决装不下的问题。
大量数据的计算，解决算得慢的问题。

因此，大数据的地基也就由存储和计算两部分组成。

三

我们在单机，或者说数据量没那么大的时候，对于存储有两种需求：

文件形式的存储
数据库形式的存储

文件形式的存储是最基本的需求，比如各个服务产生的日志、爬虫爬来的数据、图片音频等多媒体文件等等。对应的是最原始的数据。

数据库形式的存储则通常是处理之后可以直接供业务程序化使用的数据，比如从访问日志文件里处理得到访问者 ip、ua 等信息保存到关系数据库，这样就能直接由一个 web 程序展示在页面上。对应的是处理后方便使用的数据。

大数据也只是数据量大而已，这两种需求也一样。虽然不一定严谨，但前者我们可以叫做离线（offline）存储，后者可以叫做在线（online）存储。

四

离线存储这块 HDFS（Hadoop Distributed File System）基本上是事实上的标准。从名字可以看出，这是个分布式的文件系统。实际上，「分布式」也是解决大数据问题的通用方法，只有支持无限横向扩展的分布式系统才能在理论上有解决无限增长的数据量带来的问题的可能性。当然这里的无限要打个引号。

这是 HDFS 的简易架构图，看起来仍然不太直观，其实要点只有几句话：

文件被以 block 为单位拆分后存放在不同的服务器上，每个 block 都在不同机器上做了多份冗余。
有 NameNode 和 DataNode 两种角色，前者存放元数据也就是每个 block 保存在哪里，后者负责存放实际数据。
读和写数据都要先向 NameNode 拿到对应文件的元数据，然后再找对应的 DataNode 拿实际的数据。

可以看到，HDFS 通过集中记录元数据的方式实现了分布式的效果，数据量增长只需要添加一些新的 DataNode 就可以了，单机容量不再是限制。

而为了保证数据的高可用，比如某台服务器突然坏了再也起不来了，HDFS 通过冗余的方式（通常是 3 副本）来解决这个问题。这也是分布式系统里最常用的高可用方式，虽然成本可能很高。

系统级别的高可用才有意义，所以除了数据的高可用，元数据的高可用也至关重要。思路一样 -- 备份。HDFS 提供了 Secondary NameNode 来提供元数据的冗余。当然更好的方式是使用 NameNode HA 的方式，通过 active/standby 一组 NameNode 来保证不间断的元数据读写服务。

同样，扩展性刚才也只考虑到数据的横向扩展，元数据呢？当数据量大到一定程度，元数据也会非常大，类似我们在传统关系数据库里碰到的索引膨胀的问题。解决的思路是 NameNode Federation。简单讲就是把原来的一组 active/standy NameNode 拆分成多组，每组只管理一部分元数据。拆分后以类似我们在 Linux 系统里挂载（mount）硬盘的方法对外作为整体提供服务。这些 NameNode 组之间相互独立，2.x 版本的 HDFS 通过 ViewFS 这个抽象在客户端通过配置的方式实现对多组 NameNode 的透明访问，3.x 版本的 HDFS 则实现了全新的 Router Federation 来在服务端保证对多组 NameNode 的透明访问。

可以看到，元数据的横向扩展和实际数据的横向扩展思路完全一样，都是拆分然后做成分布式。

五

和离线存储对应的是在线存储，可以参照传统的 MySQL、Oracle 等数据库来理解。在大数据领域最常用的是 HBas

最低0.47元/天解锁文章

搬砖不忘敲码人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
摸不到Java的顶峰，咱就转战大数据，绝不在一棵树上吊死

这篇文章的目的是带那些对大数据不了解又有兴趣的人入门。如果你是老手可以忽略，或者想看看有没有不一样的东西也行。我们学习一个新知识，第一步应该是给它个明确的定义。这样才能知道你学的是什么，哪些该学，哪些又可以先不用管。然而，大数据虽然很火，但其实是个概念没那么清晰的东西，不同的人可能有不同的理解。这次我们不去纠结具体的定义，也忽略那些 4 个 V、6 个 C 之类传统说教的东西，甚至不想...
复制链接

扫一扫