一、大数据分析业务步骤
1、明确分析的目的和思路
2、数据收集
2.1使用的技术 sqoop、flume
3、数据处理
3.1详细步骤:提取、清洗、转换、加载
所要使用的技术:sqoop、kettle、MapReduce
4、数据分析
4.1 统计、建模、挖掘
要掌握的技术:hive、spark、flink
5、数据可视化
要学的技术superset、echarts、BI工具
6、报告撰写
二、大数据核心框架
1 Hadoop
2 Hive
3 Spark
4 Flink
5 Kafka
6 Hbase
三、大数据职业规划
1 大数据开发工程师
2 Hadoop开发工程师
3 Spark开发工程师
4 实时计算开发工程师
5 数据仓库开发工程师
6 ETL开发工程师
7 BI开发工程师,即做可视化
8 数据挖掘工程师
9 数据架构师
四、linxu的目录结构
Linux不同于Windows系统(Windows系统要盘符,比如c盘、d盘……),Linux的目录结构是一个树形结构,系统默认有很多文件夹,作为开发人员我们应该清楚每个目录大致是做什么的。
1、/bin目录:二进制目录所在目录
2、/boot目录:系统引导程序所需要的文件目录
3、/dev目录:设备软件目录、磁盘、光驱
4、/etc目录:系统配置、程序启动
5、/home目录:普通用户的家,目录默认数据存放目录
6、/lib目录:共享库文件和内核模块存放目录
7、/mnt目录:临时挂在储存设备的挂载点
8、/opt目录:额外的应用软件包
9、/proc目录:操作系统运行时,进程信息和内核信息存放在这里
10、/root目录:Linux超级权限用户root家目录
11、/sbin目录:和管理系统相关的命令,超级管理员用
12、/temp目录:临时文件目录,这个目录可以当回收站使用
13、/usr目录:用户或系统软件应用程序目录