大数据入门学习？

最新推荐文章于 2024-09-21 17:07:20 发布

金罗老师

最新推荐文章于 2024-09-21 17:07:20 发布

阅读量213

点赞数

分类专栏：大数据大数据开发大数据学习 spark 人工智能编程开发大数据分析 hadoop 文章标签：大数据大数据学习大数据开发数据分析人工智能

本文链接：https://blog.csdn.net/qq_41842579/article/details/84065114

版权

大数据同时被 3 个专栏收录

124 篇文章 4 订阅

订阅专栏

大数据开发

124 篇文章 0 订阅

订阅专栏

大数据学习

123 篇文章 0 订阅

订阅专栏

第一部分：了解大数据平台架构

大数据有非常大的价值，不管是从帮助企业创造营收还是从提高效率、节省企业成本角度。大数据要是做好了，将会是一个企业

增长的发动机，推动业务突飞猛进的发展。要实现大数据的价值，真正让大数据为企业创造贡献，首先必须要积累有大数据，把

日常的业务和用户行为数据收集起来。有些数据是可再生资源，但更多的数据是不可再生资源，这就需要我们搭建一个平台负责

数据的采集、规整、运算、存储、应用、展现等，有了这样一个大数据平台，我们才能做好数据的积累，从小数据到大数据，数

据是企业的资产，好的数据是企业的优质资产。大数据平台该怎样搭建呢？请看下面这幅图，不管我之前在阿里还是在腾讯工

作，还是到哪个企业工作，基本上我都是通过这幅图进行一些简单的适应企业的调整，就可以完全搬过来使用了。

针对上面这幅图，有几点跟大家讲解说明下：

1）大数据平台由三个平台+一个服务组成：工具平台，大数据仓库基础平台、大数据门户，其中，工具平台又包含运维平台和数

据采集平台，大数据门户又包含大数据分析平台和大数据产品应用平台。

在这里还是要推荐下我自己建的大数据学习交流群:199427210，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。

2）讲讲每个平台的作用。

运维平台主要负责整个大数据平台的任务调度、任务监控、元数据管理、权限管理等，分别由调度系统、任务监控中心、元数据

管理系统、权限管理系统等系统组成。

大数据采集平台主要负责把数据采集到大数据仓库平台中。企业的大数据来源从大的角度来说，主要是从三个方面获取数据，业

务系统、行为日志采集系统、外部数据来源。每一个方面来源又包含途径，大家可以看上面的图就了解。这里特别要强调的是外

部数据来源，可以通过网络爬虫工具收集，通过和相应的合作方进行数据交换，通过从数据商那里采购过来，也有极少部分可以

通过一些大公司的开放平台接口获取，比如阿里、腾讯等。

大数据基础平台，在传统的关系数据库时代，这个平台也是企业必须要做的平台，只不过当时叫数据仓库系统，在大数据时代，

我称作为大数据仓库基础平台。这部分是整个大数据平台的核心。我们接下来会详细讨论。

大数据门户，是数据成果的集成一体化平台，包含大数据分析平台和数据应用平台。大数据门户作为整个数据部门的窗口，所有

数据研究成果都会展现在数据门户中，极大的方便了企业各层级、各职能人员使用数据。我们接下来也将会详细讨论下这部分内

容。

用户服务，使用我们数据的人主要有公司的各层级的管理人员、数据分析人员、运营人员、产品经理、技术研发工程师、企业的

投资相关方，还可能有部分的公司提供对外的数据服务。提供服务的方式有多种多样，或通过大数据门户、或通过API接口、或

是直接在分析报告中体现。

第二部分：掌握大数据常用工具组件

hadoop和Spark是两种不同的大数据处理框架，他们的组件都非常多，往往也不容易学，我把他们两者整理在一幅图中，给大家

一个全貌的感觉。初学者可以针对如下图中的组件，逐个的去研究攻破。至于各组件的详细介绍、相关联系和区别，以及它们在

大数据平台建设中的具体实施关注点，待点赞数达到1000，我再对帖子进行详细的更新，请大家随手帮忙点个赞。

以上这些大数据组件是日常大数据工作中经常会碰到的，每个组件大概的功能，我已经在图中做了标识。下面，针对这幅图我给

大家两点重要提示：

a.蓝色部分，是Hadoop生态系统组件，黄色部分是Spark生态组件，虽然他们是两种不同的大数据处理框架，但它们不是互斥

的，Spark与hadoop 中的MapReduce是一种相互共生的关系。Hadoop提供了Spark许多没有的功能，比如分布式文件系统，而

Spark 提供了实时内存计算，速度非常快。有一点大家要注意，Spark并不是一定要依附于Hadoop才能生存，除了Hadoop的

HDFS，还可以基于其他的云平台，当然啦，大家一致认为Spark与Hadoop配合默契最好摆了。

b.技术趋势：Spark在崛起，hadoop和Storm中的一些组件在消退。大家在学习使用相关技术的时候，记得与时俱进掌握好新的

趋势、新的替代技术，以保持自己的职业竞争力。

HSQL未来可能会被Spark SQL替代，现在很多企业都是HIVE SQL和Spark SQL两种工具共存，当Spark SQL逐步成熟的时候，

就有可能替换HSQL；

MapReduce也有可能被Spark 替换，趋势是这样，但目前Spark还不够成熟稳定，还有比较长的路要走；

Hadoop中的算法库Mahout正被Spark中的算法库MLib所替代，为了不落后，大家注意去学习Mlib算法库；

Storm会被Spark Streaming替换吗?在这里，Storm虽然不是hadoop生态中的一员，但我仍然想把它放在一起做过比较。由于

Spark和hadoop天衣无缝的结合，Spark在逐步的走向成熟和稳定，其生态组件也在逐步的完善，是冉冉升起的新星，我相信

Storm会逐步被挤压而走向衰退。

学习大数据首先我们要学习Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java

大家都知道Java的方向有JavaSE、JavaEE、JavaME，学习大数据要学习那个方向呢？只需要学习Java的标准版JavaSE就可以了，像Servlet、JSP、Tomcat、Struts、Spring、Hibernate，Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多，只需要了解就可以了，当然Java怎么连接数据库还是要知道的，像JDBC一定要掌握一下。

有同学说Hibernate或Mybites也能连接数据库啊，为什么不学习一下，我这里不是说学这些不好，而是说学这些可能会用你很多时间，到最后工作中也不常用，我还没看到谁做大数据处理用到这两个东西的，当然你的精力很充足的话，可以学学Hibernate或Mybites的原理，不要只学API，这样可以增加你对Java操作数据库的理解，因为这两个技术的核心就是Java的反射加上JDBC的各种使用。

Linux

因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop

这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。

其实把Hadoop的这些组件学明白你就能做大数据的处理了，只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念，听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据，到时候你就不会觉得数据大真好，越大越有你头疼的。当然别怕处理这么大规模的数据，因为这是你的价值所在，让那些个搞Javaee的php的html5的和DBA的羡慕去吧。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper

这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql

我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那？你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop

这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive

这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那？它和Pig差不多掌握一个就可以了。

Oozie

既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase

这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka

这是个比较好用的队列工具，队列是干吗的？排队买票你知道不？数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据（比如好几百G的文件）我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了。

因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方（比如Kafka）的。