作为今年刚毕业的学生,我认为我有一些关于大数据学习心得想要和大家分享。
大数据学什么?
想起之前自己大三选择专业方向的时候,其实根本不清楚大数据这个方向毕业以后到底可以做些什么,只是当时周围的人都告诉我,大数据很火热,很挣钱,然后就茫然的选择了大数据方向。选完之后,我也不知道自己应该从哪里开始学习,需要学些什么。学校开设的大数据相关的课程有:数据挖掘,Hadoop,机器学习... ememem.....好像就这几门和大数据有关的课程吧,我也不太记得了,因为学校的课程我都不听的,除了大一有认真听过课。
选完专业之后,我就一直搜索大数据的学习路线图,然后去网上找相关视频学习.....
但是这样一段一段学下来发现自己根本就很难坚持学完那些课程,因为课程实在是太多了....
直到购买了一整套大数据课程,购买的课程是一整套的大数据学习视频,然后我就天天跟着学习。这里我并不是鼓励大家要购买视频的哈,因为购买一整套大数据课程需要2万左右,不是一般大学生可以支付的起的,我是因为我姐购买的。
这里建议大学生可以淘宝搜索大数据课程,可能花10-20块左右就可以买到一些视频,这些视频我认为也是很适合刚入门大数据学习的。就是从这整套的视频中你就可以知道自己需要学习什么课程,然后跟着学习就行。
我这里也简单的介绍一下大数据需要学什么?
基础入门课:
首先需要学习Java,Linux
相信Java可能很多同学都会,但是Linux不是很多人都会的,因为我刚开始的时候也是没有学习过Linux的,但是要学大数据,Linux是一定要会的哦。Linux只要学习一些常用的基本命令就可以了,一般学个2-3天也就可以掌握。
大数据的入门课程:
Hadoop
这个是入门大数据必须要学习的,因为这个是基础,这个学会了后面学习其他框架就会比较容易。
Hadoop是一个开源软件,是高可靠、可伸缩的分布式计算框架。它解决了海量数据存储问题,以及海量数据的计算问题。其实现在企业一般不会使用Hadoop作为计算,一般都是用其来存储海量数据。
Hive
这个很重要,学起来也很简单。如果你之前就会SQL的话,这个学起来很容易,因为它和SQL很像。
HBase
HBase是非关系型数据库,我们通常说的NoSQL,全拼是Not noly sq。
Scala语言
学习这个语言,是因为spark使用scala开发的,为了可以更好的深入spark的源代码。还有可能有些公司就是使用scala开发的,所以这个也是要学习的。
Spark
这个是很重要很重要的哦,基本可以说是大数据的核心吧。这个框架有三个核心模块:spark core,spark sql,spark streaming
Kafka
这个其实作为准实时重要的一个消息队列,Kafka一般是和Spark streaming搭配使用的。
然后你可能搜索的时候还需要学习sqoop,Flume,azkaban,kettle等其他框架,这些如果时间多的话,我觉得是可以学习的,但是时间很有限的话,我认为也可以不学习,因为其实这些对于大数据开发不是很重要。
sqoop 一般是用来数据采集的,一般是从某个数据库采集到另外一个数据库这个样子
flume 这个也是用来采集数据,但是这个是实时采集。就是一般是监控某个文件,然后输出到某个队列这样子
kettle 这个可以用来数据采集和推送
azkaban 这个一般是用来管理一些上线作业的
大数据的应用场景:
其实最常见的电商,比如统计网页浏览量,用户访问量,新增用户,留存用户,活跃用户等一些指标,以及一些商品推荐等
大数据业务整体流程:
1、数据采集(可以使用kettle,sqoop等工具)这个步骤一般公司会有专门的小伙伴负责
2、数据存储(大数据的数据特点就是数据量大,所以一般是存储在Hadoop,Hive)
3、数据清洗(过滤无效的数据)
4、数据分析(这里就是分析一些指标,这里可以使用Hive或者是Spark Sql)
5、数据展示 (就是做成表格,柱状图,扇形图等形式将分析好的数展示)
ememem......这些都是我自己对于大数据的一些理解,可能有些理解的不是很到位,希望大家可以谅解一下哈