学习大数据从哪儿下手?

学习hadoop,从哪儿开始学首先要根据你的基本情况而定。

如果你就一小白,没有任何开发基础,也没有学过任何开发语言,那就必须先从第一阶段基础java开始学起(大数据支持很多开发语言,但企业用的最多的还是JAVA),需要学习的内容如下:

第一阶段(加**的需重点熟练掌握,其他掌握):

1、Java基础**

1) 数据类型

2) 运算符、循环

3) 顺序结构程序设计

4) 程序结构

5) 数组及多维数组

2、面向对象**

构造方法、控制符、封装

3、继承**

4、多态**

5、抽象类、接口**

常用类

6、集合Collection、list**

HashSet、TreeSet、Collection

7、集合类Map**

1) 异常

2) File

8、文件/流**

1) 数据流和对象流

2) 线程(理解即可)

3) 网络通信(理解即可)

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

如果如果你已经是脱离小白生涯,你理大数据不远了,需要学习一些额外的小知识(数据结构、关系型数据库、linux系统操作)第二阶段以夯实基础,之后就可以进入大数据学习了;

第二阶段(必备技能):

  1. 数据结构

  2. 关系型数据库

  3. Linux系统操作

  4. Linux操作系统概述

  5. 安装Linux操作系统

  6. 图形界面操作基础

  7. Linux字符界面基础

  8. 字符界面操作进阶

  9. 用户、组群和权限管理

  10. 文件系统管理

  11. 软件包管理与系统备份

  12. Linux网络配置

主要掌握Linux操作系统的理论基础和服务器配置实践知识,同时通过大量实验,着重培养学生的动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上,加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解,并在实践中加以应用。掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时,如果大家有时间把javaweb及框架学习一番,会让你的大数据学习更自由一些。

重点掌握:

1) 常见算法

2) 数据库表设计

3) SQL语句

4) Linux常见命令

如果你已经是小牛,只不过不了解大数据而已,那么恭喜你,我们可以给你介绍大数据相关平台了。例如:hadoop离线分析、Storm实时计算、spark内存计算三种计算平台,学习体系可以按照如下:

3

第三阶段(大数据平台技术):

  1. Hadoop离线批处理平台

HDFS、MapReduce、Hive、Hbase、Sqoop、Pig等

  1. Storm实时数据处理平台

  2. Spark平台

提示:若之前没有项目经验或JAVA基础,掌握了第一阶段进入企业,不足以立即上手做大数据项目,企业需再花时间与成本培养;

第二阶段掌握扎实以后,进入企业就可以跟着做大数据项目了,跟着一大帮人做项目倒也不用太担心自己能不能应付的来,当然薪资不能有太高的要求;

前两个阶段都服务于第三阶段的学习,除了熟练掌握这些知识以外,重点需要找些相应的项目去做,不管项目大小做过与没有相差很多的哦!掌握扎实后可直接面对企业就业,薪资待遇妥妥的了!

技术更新迭代速度很快,我们必须时刻保持危机感!一步跟不上,步步跟不上!

大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴、百度这样的大公司,还是中小企业都很重视,甚至是第一个纳入国家战略的技术,政府扶持力度大,支持甚多!

面对这样的大环境下,大数据相关岗位薪水高,就业前景好。因此也吸引了一大批有志之士,想学习并从事大数据相关工作。

大数据前景分析

随着国家重视大数据,政府扶持大数据,大数据在企业中生根发芽,开花结果。未来三至五年,中国需要180万数据人才,但目前只有约30万人。

人才紧缺带来最直观现象就是薪酬的提升。

目前,一个大数据工程师的月薪轻松过万,一个有几年工作经验的数据工程师薪酬在40万~80万元之间不等,而更顶尖的大数据技术人才则是年薪轻松超百万。

有的时候成功就是这样,方向和平台选择对了,只要付出足够的汗水,选择大于努力。

大数据开发就业6大热门方向

大数据技术专业可以从事的工作有哪些?常见的食品制造、零售电商、医疗制造、交通检测等等。

人才主要分成三大类:大数据系统研发类、大数据应用开发类、大数据分析类。

热门岗位有:

1.大数据系统架构师  

2.大数据系统分析师 

3.大数据开发工程师

4.数据分析师  

5.数据挖掘工程师

6.大数据可视化工程师

大数据开发这块年龄影响比较小,在大数据行业内生存的时间越久,其经验也会越得到肯定。面对如此光明而诱人的前景,有远见的人,早已给自己安排了后路。

转行大数据需要学习的知识点

1、Java编程技术

Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的。

2、Linux命令

对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Windows操作系统是封闭的操作系统,开源的大数据软件很受限制,因此,想从事大数据开发相关工作,还需掌握Linux基础操作命令。

3、Hadoop

Hadoop是大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

4、Avro与Protobuf

Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学习大数据,需掌握其具体用法。

5、Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

6、HBase

HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

7、Redis

Redis是一个key-value存储系统,其出现很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法。

8、ZooKeeper

ZooKeeper是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

9、Flume

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。

10、Azkaban

Azkaban是一个批量工作流任务调度器,可用于在一个工作流内以一个特定的顺序运行一组工作和流程,可以利用Azkaban来完成大数据的任务调度,大数据开发需掌握Azkaban的相关配置及语法规则。

11、SSM

SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成,常作为数据源较简单的web项目的框架。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时,再使用SSM进行整合操作。

12、Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。

13、Python与数据分析

Python是面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。

14、phoenix

phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎,其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性,大数据开发需掌握其原理和使用方法。

15、Scala

Scala是一门多范式的编程语言,大数据开发重要框架Spark是采用Scala语言设计的,想要学好Spark框架,拥有Scala基础是必不可少的,因此,大数据开发需掌握Scala编程基础知识!

16、Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

转载于:https://blog.51cto.com/14217196/2367127

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值