尝试大数据和数据挖掘,该怎么规划学习?

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_41780944/article/details/80865367

目前大数据炒的一直非常火爆,可如何进入大数据行业呢,怎么进行学习呢,

尝试大数据和数据挖掘,该怎么规划学习?

推荐一个大数据学习群 119599574晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,

一.大数据方向工作介绍

二.大数据工程师的技能要求

三.大数据学习路径

四.学习资源推荐(书籍、博客、网站)

一.大数据方向工作介绍

大数据方向的工作目前分为三个主要方向:

01.大数据工程师

02.数据分析师

03.大数据科学家

04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

二.大数据工程师的技能要求

尝试大数据和数据挖掘,该怎么规划学习?

尝试大数据和数据挖掘,该怎么规划学习?

总结如下:

必须技能10条:

01.Java高级(虚拟机、并发)

02.Linux 基本操作

03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )

04.HBase(JavaAPI操作+Phoenix )

05.Hive(Hql基本操作和原理理解)

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming )

11.一些小工具(Sqoop等)

高阶技能6条:

11.机器学习算法以及mahout库加MLlib

12.R语言

13.Lambda 架构

14.Kappa架构

15.Kylin

16.Aluxio

三.学习路径

第一阶段:

01.Linux学习(跟鸟哥学就ok了)

02.Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)

第二阶段:

03.Hadoop (董西成的书)

04.HBase(《HBase权威指南》)

05.Hive(《Hive开发指南》)

06.Scala(《快学Scala》)

07.Spark (《Spark 快速大数据分析》)

08.Python (跟着廖雪峰的博客学习就ok了)

第三阶段:

对应技能需求,到网上多搜集一些资料就ok了,我把最重要的事情(要学什么告诉你了),

剩下的就是你去搜集对应的资料学习就ok了

当然如果你觉得自己看书效率太慢,你可以网上搜集一些课程,跟着课程走也OK 。这个完全根据自己情况决定。如果看书效率不高就很网课,相反的话就自己看书。

实现经典算法。有几个部分:

a. 关联规则挖掘 (Apriori, FPTree, etc.)

b. 分类 (C4.5, KNN, Logistic Regression, SVM, etc.)

c. 聚类 (Kmeans, DBScan, Spectral Clustering, etc.)

d. 降维 (PCA, LDA, etc.)

e. 推荐系统 (基于内容的推荐,协同过滤,如矩阵分解等)

四.学习资源推荐:

01.Apache 官网

02.Stackoverflow

04.github

03.Cloudra官网

04.Databrick官网

05.过往的记忆(技术博客)

06.CSDN,51CTO

07.至于书籍当当一搜会有很多,其实内容都差不多。

最后但却很重要一点:要多关注技术动向,持续学习。

展开阅读全文

没有更多推荐了,返回首页