9月19日,2018年云栖大会在杭州开幕。上千位学者、行业专家以及来自64个国家的CEO和CTO齐聚云栖小镇,共话互联网科技的发展。大会主题为“驱动数字中国”,全球六大洲81个国家及地区共12万人次现场分享数字科技创新成果。 随着大数据时代的到来,有很多Java程序员想要…
9月19日,2018年云栖大会在杭州开幕。上千位学者、行业专家以及来自64个国家的CEO和CTO齐聚云栖小镇,共话互联网科技的发展。大会主题为“驱动数字中国”,全球六大洲81个国家及地区共12万人次现场分享数字科技创新成果。
大数据
随着大数据时代的到来,有很多Java程序员想要转行大数据。不得不说,大数据行业可以说是为Java程序员量身打造的一个朝阳行业?不仅仅是因为前景和薪资等,还有技术层面。
Hadoop是当下最流行的大数据运行平台,它属于Apache基金会,由很多相对独立的子项目(也叫做框架、模块或者组件)组成,它们是由Google、Facebook、Linkedin等互联网公司贡献的。这些框架组合在一起,共同完成大数据的存储和运算。
Hadoop
Hadoop的Logo是一只萌萌的小黄象。为什么不选小黄人、冰雪公主做Logo?Hadoop的创始人Doug Cutting说,没什么奇怪的,这个名称和Logo来源于他的孩子的一个玩具。
大数据的思想与传统关系型数据库完全不同,所以大家会感觉不好理解,不知道从哪里下手。实际上,大家没必要学习所有的框架,只要掌握了Hadoop的核心技术,以后在实际工作中,用到什么再去学习什么就可以了。
学习Hadoop
学习Hadoop,可以按照下面的路线进行:
1.HDFS:Hadoop的核心框架之一,提供数据的分布式存储,必学。
2.Mapreduce:Hadoop的核心框架之一,对数据进行分布式计算,必学。
3.Yarn:Hadoop版本2.x及之后的核心框架之一,为用户的任务分配资源,并进行任务调度,必学。
4.Zookeeper:分布式应用程序的协调器,为HDFS集群、Hbase集群、Yarn集群等提供底层支持,保证这些集群的高可用性,必学。
5.Hbase:Hadoop的数据库,用来存储非结构化的数据,可选,但一般都会用到。
6.sqoop:用来把传统关系型数据库中的数据传输到HDFS或者Hbase中,为大数据提供源数据。Hadoop本身是不产生数据的,它的数据主要来自传统的关系型数据库。
7.Spark:对数据进行分布式计算,运算速度可提高100倍,大有代替Mapreduce的趋势,其重要性不言而喻。
8.Storm:对数据进行流式计算,可选。目前对实时数据流进行计算的需求越来越多,如汽车导航,通过对实时交通情况进行分析,为司机提供有价值的导航信息。
9.Hive:数据仓库分析工具,允许用户通过类似于SQL的语言对数据进行分析、计算,可选。
Hadoop详解
金铭鼎IT教育线上Hadoop课程详细讲解以上这些框架,并举例演练。
总的来说Hadoop是一个开放式平台,它支持众多的编程语言。目前主流的大数据编程语言当属Java、Python和Scala。相对而言,编程方面的学习似乎比大数据管理方面的学习更加重要,因为你不仅需要掌握编程语言的语法,更需要具有编程思想,即算法,也就是数据处理的思路。