大数据分析」最详细的大数据分析师技能图谱详解与零基础自学内容大全

68 篇文章 0 订阅
21 篇文章 0 订阅

全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,大数据堪比石油,如何掘金大数据是所有个人、企业和国家的机遇和挑战。中国是人才大国,能理解和应用大数据的创新人才更是稀缺资源。大数据分析应用已经渗透到我们生活的方方面面。

随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。

大数据分析师

大数据分析师就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。

大数据和传统数据的最大区别在于,它是在线的、实时的、规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。

大数据领域三个大的技术方向

方向一:Hadoop大数据开发方向

方向二:数据挖掘、数据分析&机器学习方向

方向三:大数据运维&云计算方向

精通任何方向之一者,均会“前(钱)”途无量,而需要说明的是,三个方向中,数据挖掘、数据分析&机器学习是大数据催生新兴职业,数据分析师成IT界的“大熊猫”。

 

大数据分析师技能图谱

数据挖掘/数据分析/数据仓库/商业智能/大数据技术/人工智能/机器学习/深度学习/项目管理/系统架构

  1. 统计分析:大数定律、抽样推测规律、秩和检验、回归分析、方差分析等
  2. 可视化辅助工具:Excel、PPT、Xmind、Visio
  3. 大数据处理框架:Hadoop、Kaffka、Storm、ELK、Spark
  4. 数据库:SQLite、MySQL、MongonDB、Redis、Cassandra、HBase
  5. 数据仓库、商业智能:SSIS数据仓库、SSAS MDX多维数据集、Ssrs、DW2.0
  6. 数据碗蕨工具:Matlab、SAS、SPSS、R、Python
  7. 人工智能、机器学习
  8. 挖掘算法:数据结构、一致性、常用算法
  9. 编程语言:Python、R、Ruby、Java

自学掌握技能

阶段一:业务数据分析师

  • 基础操作

1、数据录入

2、快速填充

3、数据格式

4、查找替换

5、冻结拆分

6、合并计算

7、排序筛选

8、分类汇总

9、公式填充

10、条件格式

11、插入表格

  • 函数

1、函数书写

2、逻辑函数if and or

3、逻辑函数if嵌套

4、统计函数count系列函数

5、统计函数sum系列函数

6、统计函数average系列函数

7、查找函数vlookup精确查找与模糊查找

8、查找函数hlookup

9、查找函数match index lookup

10、引用函数及数学函数

11、日期函数

12、文本函数

13、信息函数

14、数组入门

  • Excel制图

1、柱状图

2、饼图

3、折线图

4、雷达图

5、锥形图

6、散点图

7、地图

8、复合图

  • 数据透视图表

1、数据透视表结构

2、数据透视表的步骤

3、数据透视表的项

4、父字段和子字段

5、分析选项卡

6、数据透视图

7、样式选项卡

  • 数据库基础

1、数据库简介

2、DBMS和数据库的关系

3、MySQL简介

4、安装配置

5、环境变量的配置

6、Navicat管理工具

7、SQL语句的基本概念

8、SQL语句的分类

9、基本数据类型

  • 字段属性

1、添加和删除主键

2、添加和删除外键

3、添加和删除唯一键

4、添加和删除自增

5、添加和删除默认值

  • 检索数据

1、select语句

2、Update语句

3、Insert语句

4、Delete语句

5、逻辑操作符

6、比较操作符

  • 汇总数据

1、聚合函数

2、avg()函数

3、count()函数

4、max()函数

5、min()函数

6、sum()函数

  • 连接查询

1、笛卡尔积

2、内部连接操作

3、左外连接操作

4、右外连接操作

5、自连接操作

6、多表实例操作

  • 存储过程

1、MySQL变量的定义

2、MySQL SET与DECLARE声明变量

3、MySQL预处理语句

4、MySQL存储过程的概念详解

5、MySQL结束符的设置

6、MySQL存储过程的基本语句

  • 事务处理

1、事务的原子性

2、事务的一致性

3、事务的隔离性

4、事务的持久性

5、使用set

6、MySQL的rollback

7、MySQL的commit

  • Tableau软件及基本操作

1、Tableau公司产品介绍

2、Tableau安装包获取

3、Tableau平台注册与登录

4、导入数据与连表

5、功能区域介绍使用

6、数据排序

7、分层建立

8、数据钻取

9、时间序列钻取

10、计算字段

  • 绘图

1、条形图

2、折线图

3、组合图

4、填充地图

5、饼图

6、气泡图

7、热力图

8、凸显图

9、嵌套条形图

10、标靶图

11、散点图

12、直方图

13、仪表板

阶段二:SPSS建模分析师

  • 函数

1、函数的定义

2、单调性

3、周期性

4、有界性

5、奇偶性

6、常见函数

7、对数函数

8、指数函数

  • 函数的极限和导数

1、数列极限定义

2、无穷大和无穷小

3、函数极限的定义

4、导数的定义

5、求导法则

6、导数的四则运算

7、导数的链式法则

  • 导数的基本应用

1、判断单调性

2、函数凹凸的定义

3、函数极值的定义

4、函数极值的求解

5、拉格朗日乘数法

6、泰勒公式

  • 不定积分和定积分

1、不定积分的定义

2、积分计算方法

3、定积分的涵义

4、定积分的基本性

5、定积分的算法实践

  • 矩阵

1、矩阵的定义

2、常见矩阵

3、矩阵的基本运算

4、矩阵的转置

5、对称矩阵

6、行列式

  • 矩阵的应用

1、齐次方程组求解

2、非齐次方程组求解

3、相似矩阵

4、二次型

5、正定矩阵

6、半正定矩阵

  • 矩阵的分解

1、特征值

2、特征向量

3、奇异值

4、QR分值

5、特征值分解

6、SVD分解

  • 古典概率问题

1、古典概率计算

2、条件概率

3、全概率

4、贝叶斯公式

5、概率的独立性

6、联合概率

  • 随机变量

1、随机变量的定义

2、离散型随机变量

3、常见离散型分布

4、连续性离散变量

5、常见连续性分布

6、二项分布

7、高斯分布

  • 统计

1、统计的基本定义

2、常见的统计量

3、期望、方差、协方差、相关系数

4、三大统计分布

5、大数定理

6、中心极限定理

7、极大似然估计

  • 界面介绍

1、spss软件介绍

2、spss操作介绍

3、spss四大窗口

4、spss变量操作

5、spss界面修改

  • 基础操作

1、导入导出文件

2、数据基本操作

3、变量属性描述

4、数据管理

5、数据编码转换

6、计算变量

  • 问卷操作

1、问卷设计思路

2、构建变量

3、抽样

4、问卷录入

5、数据清洗

6、样本检验

  • 效度检验

1、效度定义

2、效度指标

3、效度检验原理

4、主成分分析法

5、效度检验操作

6、效度指标审查

  • 信度检验

1、信度定义

2、信度指标

3、信度检验原理

4、信度检验操作

5、信度指标审查

  • 矩阵的应用

1、矩阵求导公式

2、最小二乘法的基本思想

3、最小二乘法的推理过程

4、正定矩阵

5、半正定矩阵

6、齐次方程组求解

7、非齐次方程组求解

  • 变量分析

1、频数分析

2、交叉表分析

3、描述统计分析

4、卡方检验

5、相关性分析

  • 画图

1、条形图

2、箱体图

3、直方图

4、折线图

5、茎叶图

6、饼图

  • 参数检验

1、奇异值检验

2、单样本T检验

3、独立样本T检验

4、配对样本T检验

5、单方差分析

6、多因素方差分析

7、协方差分析

  • 回归分析

1、最小二乘法原理

2、一元线性回归分析

3、一元非线性回归分析

4、多元线性回归分析

5、多元非线性回归分析

6、层次回归分析

  • 中介效应检验

1、中介效应定义

2、中介效应模型介绍

3、中介效应模型构建

4、中介效应指标解读

5、中介效应判定

  • 调节效应检验

1、调节效应定义

2、调节效应模型介绍

3、调节效应模型构建

4、哑变量构建

5、中介效应判定

  • 聚类分析

1、k-means聚类

2、两步聚类

3、层次聚类

4、其他聚类拓展

阶段三:R语言建模分析师

  • 语言简介

1、R的用户界面

2、R的对象

3、编写R自定义函数

4、安装R第三方包

5、查看帮助文档

6、原子型向量

7、列表

8、数据框

  • 数据操作

1、正整数索引

2、负整数索引

3、零索引

4、空格索引

5、逻辑值索引

6、名称索引

7、美元符号与双中括号

8、逻辑值取子集

9、缺失值处理

  • 环境系统

1、环境

2、操作R环境

3、作用域规则

4、赋值

5、函数求值

6、闭包

  • 控制流

1、条件分支语句

2、if语句

3、if else语句

4、switch语句

5、循环语句

6、for循环

7、while循环

8、repeat循环

9、break、next控制命令

10、自动化报表案例

  • S3面向对象系统

1、S3系统

2、属性

3、泛型函数

4、方法

5、类

6、S3与调试

7、面向对象系统案例

  • 基本对象操作

1、使用原函数

2、使用逻辑函数

3、使用数学函数

4、应用数值方法

5、统计函数

6、使用apply函数族

7、字符串的使用

8、正则表达式

  • 连接数据库

1、操作关系型数据库

2、访问表和表中字段

3、用SQL对关系型数据库进行查询

4、分块提取查询结果

5、事务操作

6、操作非关系型数据库

7、dplyr包的基本操作

  • 实例分析

1、假设检验

2、方差分析

3、一元线性回归

4、多元线性回归

5、逐步回归

6、哑变量模型

7、多项式回归

8、列联表制表与分析

  • 项目分析

1、客户分析-用户运营分析

2、客户分析-用户价值分析

3、产品分析

4、投资分析

阶段四:Python语言建模分析师

  • 基础语法

1、Python简介

2、变量及标识符命名

3、基础语法和特殊字符

4、基础数据类型

5、字符串常用操作

6、输入&输出

7、列表及元组特性

8、字典及集合特性

9、字典及列表类型的嵌套

10、深复制浅复制

  • 控制流语句

1、if条件语句

2、if-else语句

3、elif语句

4、if语句的嵌套

5、while循环

6、for循环遍历

7、break&continue

8、异常捕获

9、异常处理

  • 函数

1、自定义函数

2、函数的参数介绍

3、返回值的特性

4、局部环境与全局环境

5、递归函数

6、匿名函数

7、列表推导式

8、高阶函数

9、迭代器与生成器

10、函数的应用

  • 文件操作

1、文件类型介绍

2、open函数

3、绝对路径&相对路径

4、文件操作模式

5、文件管理器

6、二维数据写入

  • 模块

1、模块和包

2、模块导入

3、时间模块

4、随机数模块

5、数据库交互

6、正则表达式

7、re模块常用模式

8、原子及通配符

9、限定符

10、模式选择符及模式单元符

  • 面向对象

1、面向对象与面向过程

2、类与对象

3、实例属性&实例方法

4、类属性&类方法

5、封装、继承、多态

6、面向对象的深层介绍

  • 爬虫简介&爬虫原理

1、爬虫概念

2、爬虫与数据分析

3、爬虫的分类

4、爬虫的原理

5、爬虫的处理流程

6、爬虫对应网络的危害

7、为什么需要反爬虫

8、常见的反爬虫策略

9、常见的反反爬虫策略

  • urllib,urllib2

1、urllib、urllib2初级使用

2、Cookielib、cookies

3、urllib.request的初级使用

4、urllib.request的高级使用

5、urllib.request异常处理

6、cookies处理及案例

  • requests库

1、get与post请求

2、网页及图片的下载

3、响应与编码

4、cookies与登录

5、超时异常处理

6、代理设置

  • 网页解析

1、正则表达式解析网页

2、xpath解析

3、bs4搜索文档树

4、css选择器

5、实战应用

  • NumPy科学计算库

1、数据结构详解

2、数组的特性

3、随机数数组

4、数组的运算与函数

5、数组常用操作

  • Pandas数据分析库

1、Pandas数据结构详解

2、Pandas索引对象

3、Series对象及操作

4、DataFrame对象及操作

5、Pandas的数学计算

6、Pandas读取本地文件

7、Pandas连接数据库

8、数据筛选与清洗

9、缺失值处理

10、数据的连接与排序

11、字符串向量化处理

12、Map与Apply函数

13、GroupBy分组与应用

14、时间序列处理

15、透视表

  • Matplotlib可视化库

1、Matplotlib介绍

2、Matplotlib核心概念

3、Matplotlib通用绘图过程

4、Matplotlib常见图像绘制

5、Pandas与matplotlib

阶段五:大数据分析

  • Linux基础

1、初识linux

2、Vmware虚拟机的安装

3、centos7的安装

4、配置网络环境

5、各种安装问题的总结

  • Linux常用远程连接工具

1、xshell的介绍和安装

2、CRT的介绍和安装

3、notepad++的安装

4、其他远程工具了解

  • Linux基础命令

1、linux根目录的介绍

2、linux常用命令

3、find命令讲解

4、vi/vim命令讲解

  • Linux用户权限管理

1、linux用户讲解

2、linux用户组的讲解

3、添加删除用户及用户组

4、修改文件权限

5、修改所有用户和用户组

6、配置sudo权限

  • Linux文件管理

1、gzip压缩

2、tar压缩打包

3、linux类型

4、rpm离线安装

5、yum在线安装

  • Linux常用系统管理命令

1、网络管理命令

2、服务管理命令

3、端口管理命令

4、进程管理命令

5、资源管理命令

  • linux定时任务

1、date命令

2、at定时命令

3、crontab定时命令

  • hdfs框架

1、hdfs原理介绍

2、hdfs副本机制

3、hdfs读取流程

4、hdfs写入流程

5、hdfs配置

6、hdfs高可用

7、hdfs常用命令

  • MapReduce

1、配置maven系统

2、mapreduce的核心思想

3、wordcount程序

4、shuffle过程详解

  • Hive概述

1、数据库(RDBMS)简介

2、数据仓库(Hive)简介

3、数据库和数据仓库功能对比

4、数据库和数据仓库应用场景分析

5、Hive的实现机制

6、SQL On Hadoop概念讲解

  • Hive体系结构

1、Hive体系架构讲解

2、Metastore讲解

3、配置MYSQL为Hive的元数据库

  • Hive的SQL命令

1、基本的HiveQL语句讲解

2、Hive常用的Linux Shell参数

3、Hive扩展环境配置

4、三种创建表的方式

5、Hive外部表

6、Hive分区表

7、Hive常用的分析函数

8、数据的多种导入和导出方式

9、Hive常用的聚合函数

10、Hive的多种排序函数

大数据分析师岗位与平均薪资

 

业务(数据挖掘)分析师、数据分析员、数据分析师、建模数据挖掘、大数据挖掘、大数据分析师、首席数据分析师(CA)、大数据科学家、大数据高级系统架构师、初/中/高级数据产品经理

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值