全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,大数据堪比石油,如何掘金大数据是所有个人、企业和国家的机遇和挑战。中国是人才大国,能理解和应用大数据的创新人才更是稀缺资源。大数据分析应用已经渗透到我们生活的方方面面。
随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。
大数据分析师
大数据分析师就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。
大数据和传统数据的最大区别在于,它是在线的、实时的、规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
大数据领域三个大的技术方向
方向一:Hadoop大数据开发方向
方向二:数据挖掘、数据分析&机器学习方向
方向三:大数据运维&云计算方向
精通任何方向之一者,均会“前(钱)”途无量,而需要说明的是,三个方向中,数据挖掘、数据分析&机器学习是大数据催生新兴职业,数据分析师成IT界的“大熊猫”。
大数据分析师技能图谱
数据挖掘/数据分析/数据仓库/商业智能/大数据技术/人工智能/机器学习/深度学习/项目管理/系统架构
- 统计分析:大数定律、抽样推测规律、秩和检验、回归分析、方差分析等
- 可视化辅助工具:Excel、PPT、Xmind、Visio
- 大数据处理框架:Hadoop、Kaffka、Storm、ELK、Spark
- 数据库:SQLite、MySQL、MongonDB、Redis、Cassandra、HBase
- 数据仓库、商业智能:SSIS数据仓库、SSAS MDX多维数据集、Ssrs、DW2.0
- 数据碗蕨工具:Matlab、SAS、SPSS、R、Python
- 人工智能、机器学习
- 挖掘算法:数据结构、一致性、常用算法
- 编程语言:Python、R、Ruby、Java
自学掌握技能
阶段一:业务数据分析师
- 基础操作
1、数据录入
2、快速填充
3、数据格式
4、查找替换
5、冻结拆分
6、合并计算
7、排序筛选
8、分类汇总
9、公式填充
10、条件格式
11、插入表格
- 函数
1、函数书写
2、逻辑函数if and or
3、逻辑函数if嵌套
4、统计函数count系列函数
5、统计函数sum系列函数
6、统计函数average系列函数
7、查找函数vlookup精确查找与模糊查找
8、查找函数hlookup
9、查找函数match index lookup
10、引用函数及数学函数
11、日期函数
12、文本函数
13、信息函数
14、数组入门
- Excel制图
1、柱状图
2、饼图
3、折线图
4、雷达图
5、锥形图
6、散点图
7、地图
8、复合图
- 数据透视图表
1、数据透视表结构
2、数据透视表的步骤
3、数据透视表的项
4、父字段和子字段
5、分析选项卡
6、数据透视图
7、样式选项卡
- 数据库基础
1、数据库简介
2、DBMS和数据库的关系
3、MySQL简介
4、安装配置
5、环境变量的配置
6、Navicat管理工具
7、SQL语句的基本概念
8、SQL语句的分类
9、基本数据类型
- 字段属性
1、添加和删除主键
2、添加和删除外键
3、添加和删除唯一键
4、添加和删除自增
5、添加和删除默认值
- 检索数据
1、select语句
2、Update语句
3、Insert语句
4、Delete语句
5、逻辑操作符
6、比较操作符
- 汇总数据
1、聚合函数
2、avg()函数
3、count()函数
4、max()函数
5、min()函数
6、sum()函数
- 连接查询
1、笛卡尔积
2、内部连接操作
3、左外连接操作
4、右外连接操作
5、自连接操作
6、多表实例操作
- 存储过程
1、MySQL变量的定义
2、MySQL SET与DECLARE声明变量
3、MySQL预处理语句
4、MySQL存储过程的概念详解
5、MySQL结束符的设置
6、MySQL存储过程的基本语句
- 事务处理
1、事务的原子性
2、事务的一致性
3、事务的隔离性
4、事务的持久性
5、使用set
6、MySQL的rollback
7、MySQL的commit
- Tableau软件及基本操作
1、Tableau公司产品介绍
2、Tableau安装包获取
3、Tableau平台注册与登录
4、导入数据与连表
5、功能区域介绍使用
6、数据排序
7、分层建立
8、数据钻取
9、时间序列钻取
10、计算字段
- 绘图
1、条形图
2、折线图
3、组合图
4、填充地图
5、饼图
6、气泡图
7、热力图
8、凸显图
9、嵌套条形图
10、标靶图
11、散点图
12、直方图
13、仪表板
阶段二:SPSS建模分析师
- 函数
1、函数的定义
2、单调性
3、周期性
4、有界性
5、奇偶性
6、常见函数
7、对数函数
8、指数函数
- 函数的极限和导数
1、数列极限定义
2、无穷大和无穷小
3、函数极限的定义
4、导数的定义
5、求导法则
6、导数的四则运算
7、导数的链式法则
- 导数的基本应用
1、判断单调性
2、函数凹凸的定义
3、函数极值的定义
4、函数极值的求解
5、拉格朗日乘数法
6、泰勒公式
- 不定积分和定积分
1、不定积分的定义
2、积分计算方法
3、定积分的涵义
4、定积分的基本性
5、定积分的算法实践
- 矩阵
1、矩阵的定义
2、常见矩阵
3、矩阵的基本运算
4、矩阵的转置
5、对称矩阵
6、行列式
- 矩阵的应用
1、齐次方程组求解
2、非齐次方程组求解
3、相似矩阵
4、二次型
5、正定矩阵
6、半正定矩阵
- 矩阵的分解
1、特征值
2、特征向量
3、奇异值
4、QR分值
5、特征值分解
6、SVD分解
- 古典概率问题
1、古典概率计算
2、条件概率
3、全概率
4、贝叶斯公式
5、概率的独立性
6、联合概率
- 随机变量
1、随机变量的定义
2、离散型随机变量
3、常见离散型分布
4、连续性离散变量
5、常见连续性分布
6、二项分布
7、高斯分布
- 统计
1、统计的基本定义
2、常见的统计量
3、期望、方差、协方差、相关系数
4、三大统计分布
5、大数定理
6、中心极限定理
7、极大似然估计
- 界面介绍
1、spss软件介绍
2、spss操作介绍
3、spss四大窗口
4、spss变量操作
5、spss界面修改
- 基础操作
1、导入导出文件
2、数据基本操作
3、变量属性描述
4、数据管理
5、数据编码转换
6、计算变量
- 问卷操作
1、问卷设计思路
2、构建变量
3、抽样
4、问卷录入
5、数据清洗
6、样本检验
- 效度检验
1、效度定义
2、效度指标
3、效度检验原理
4、主成分分析法
5、效度检验操作
6、效度指标审查
- 信度检验
1、信度定义
2、信度指标
3、信度检验原理
4、信度检验操作
5、信度指标审查
- 矩阵的应用
1、矩阵求导公式
2、最小二乘法的基本思想
3、最小二乘法的推理过程
4、正定矩阵
5、半正定矩阵
6、齐次方程组求解
7、非齐次方程组求解
- 变量分析
1、频数分析
2、交叉表分析
3、描述统计分析
4、卡方检验
5、相关性分析
- 画图
1、条形图
2、箱体图
3、直方图
4、折线图
5、茎叶图
6、饼图
- 参数检验
1、奇异值检验
2、单样本T检验
3、独立样本T检验
4、配对样本T检验
5、单方差分析
6、多因素方差分析
7、协方差分析
- 回归分析
1、最小二乘法原理
2、一元线性回归分析
3、一元非线性回归分析
4、多元线性回归分析
5、多元非线性回归分析
6、层次回归分析
- 中介效应检验
1、中介效应定义
2、中介效应模型介绍
3、中介效应模型构建
4、中介效应指标解读
5、中介效应判定
- 调节效应检验
1、调节效应定义
2、调节效应模型介绍
3、调节效应模型构建
4、哑变量构建
5、中介效应判定
- 聚类分析
1、k-means聚类
2、两步聚类
3、层次聚类
4、其他聚类拓展
阶段三:R语言建模分析师
- 语言简介
1、R的用户界面
2、R的对象
3、编写R自定义函数
4、安装R第三方包
5、查看帮助文档
6、原子型向量
7、列表
8、数据框
- 数据操作
1、正整数索引
2、负整数索引
3、零索引
4、空格索引
5、逻辑值索引
6、名称索引
7、美元符号与双中括号
8、逻辑值取子集
9、缺失值处理
- 环境系统
1、环境
2、操作R环境
3、作用域规则
4、赋值
5、函数求值
6、闭包
- 控制流
1、条件分支语句
2、if语句
3、if else语句
4、switch语句
5、循环语句
6、for循环
7、while循环
8、repeat循环
9、break、next控制命令
10、自动化报表案例
- S3面向对象系统
1、S3系统
2、属性
3、泛型函数
4、方法
5、类
6、S3与调试
7、面向对象系统案例
- 基本对象操作
1、使用原函数
2、使用逻辑函数
3、使用数学函数
4、应用数值方法
5、统计函数
6、使用apply函数族
7、字符串的使用
8、正则表达式
- 连接数据库
1、操作关系型数据库
2、访问表和表中字段
3、用SQL对关系型数据库进行查询
4、分块提取查询结果
5、事务操作
6、操作非关系型数据库
7、dplyr包的基本操作
- 实例分析
1、假设检验
2、方差分析
3、一元线性回归
4、多元线性回归
5、逐步回归
6、哑变量模型
7、多项式回归
8、列联表制表与分析
- 项目分析
1、客户分析-用户运营分析
2、客户分析-用户价值分析
3、产品分析
4、投资分析
阶段四:Python语言建模分析师
- 基础语法
1、Python简介
2、变量及标识符命名
3、基础语法和特殊字符
4、基础数据类型
5、字符串常用操作
6、输入&输出
7、列表及元组特性
8、字典及集合特性
9、字典及列表类型的嵌套
10、深复制浅复制
- 控制流语句
1、if条件语句
2、if-else语句
3、elif语句
4、if语句的嵌套
5、while循环
6、for循环遍历
7、break&continue
8、异常捕获
9、异常处理
- 函数
1、自定义函数
2、函数的参数介绍
3、返回值的特性
4、局部环境与全局环境
5、递归函数
6、匿名函数
7、列表推导式
8、高阶函数
9、迭代器与生成器
10、函数的应用
- 文件操作
1、文件类型介绍
2、open函数
3、绝对路径&相对路径
4、文件操作模式
5、文件管理器
6、二维数据写入
- 模块
1、模块和包
2、模块导入
3、时间模块
4、随机数模块
5、数据库交互
6、正则表达式
7、re模块常用模式
8、原子及通配符
9、限定符
10、模式选择符及模式单元符
- 面向对象
1、面向对象与面向过程
2、类与对象
3、实例属性&实例方法
4、类属性&类方法
5、封装、继承、多态
6、面向对象的深层介绍
- 爬虫简介&爬虫原理
1、爬虫概念
2、爬虫与数据分析
3、爬虫的分类
4、爬虫的原理
5、爬虫的处理流程
6、爬虫对应网络的危害
7、为什么需要反爬虫
8、常见的反爬虫策略
9、常见的反反爬虫策略
- urllib,urllib2
1、urllib、urllib2初级使用
2、Cookielib、cookies
3、urllib.request的初级使用
4、urllib.request的高级使用
5、urllib.request异常处理
6、cookies处理及案例
- requests库
1、get与post请求
2、网页及图片的下载
3、响应与编码
4、cookies与登录
5、超时异常处理
6、代理设置
- 网页解析
1、正则表达式解析网页
2、xpath解析
3、bs4搜索文档树
4、css选择器
5、实战应用
- NumPy科学计算库
1、数据结构详解
2、数组的特性
3、随机数数组
4、数组的运算与函数
5、数组常用操作
- Pandas数据分析库
1、Pandas数据结构详解
2、Pandas索引对象
3、Series对象及操作
4、DataFrame对象及操作
5、Pandas的数学计算
6、Pandas读取本地文件
7、Pandas连接数据库
8、数据筛选与清洗
9、缺失值处理
10、数据的连接与排序
11、字符串向量化处理
12、Map与Apply函数
13、GroupBy分组与应用
14、时间序列处理
15、透视表
- Matplotlib可视化库
1、Matplotlib介绍
2、Matplotlib核心概念
3、Matplotlib通用绘图过程
4、Matplotlib常见图像绘制
5、Pandas与matplotlib
阶段五:大数据分析
- Linux基础
1、初识linux
2、Vmware虚拟机的安装
3、centos7的安装
4、配置网络环境
5、各种安装问题的总结
- Linux常用远程连接工具
1、xshell的介绍和安装
2、CRT的介绍和安装
3、notepad++的安装
4、其他远程工具了解
- Linux基础命令
1、linux根目录的介绍
2、linux常用命令
3、find命令讲解
4、vi/vim命令讲解
- Linux用户权限管理
1、linux用户讲解
2、linux用户组的讲解
3、添加删除用户及用户组
4、修改文件权限
5、修改所有用户和用户组
6、配置sudo权限
- Linux文件管理
1、gzip压缩
2、tar压缩打包
3、linux类型
4、rpm离线安装
5、yum在线安装
- Linux常用系统管理命令
1、网络管理命令
2、服务管理命令
3、端口管理命令
4、进程管理命令
5、资源管理命令
- linux定时任务
1、date命令
2、at定时命令
3、crontab定时命令
- hdfs框架
1、hdfs原理介绍
2、hdfs副本机制
3、hdfs读取流程
4、hdfs写入流程
5、hdfs配置
6、hdfs高可用
7、hdfs常用命令
- MapReduce
1、配置maven系统
2、mapreduce的核心思想
3、wordcount程序
4、shuffle过程详解
- Hive概述
1、数据库(RDBMS)简介
2、数据仓库(Hive)简介
3、数据库和数据仓库功能对比
4、数据库和数据仓库应用场景分析
5、Hive的实现机制
6、SQL On Hadoop概念讲解
- Hive体系结构
1、Hive体系架构讲解
2、Metastore讲解
3、配置MYSQL为Hive的元数据库
- Hive的SQL命令
1、基本的HiveQL语句讲解
2、Hive常用的Linux Shell参数
3、Hive扩展环境配置
4、三种创建表的方式
5、Hive外部表
6、Hive分区表
7、Hive常用的分析函数
8、数据的多种导入和导出方式
9、Hive常用的聚合函数
10、Hive的多种排序函数
大数据分析师岗位与平均薪资
业务(数据挖掘)分析师、数据分析员、数据分析师、建模数据挖掘、大数据挖掘、大数据分析师、首席数据分析师(CA)、大数据科学家、大数据高级系统架构师、初/中/高级数据产品经理