Boys,Grils,Friends! My name is Jinsuo.Shi. 一个不正经的大数据开发工程师,目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈:DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域:Python,Pandas数据分析,PowerBI数据可视化,机器学习,算法等…
个人兴趣爱好:广泛阅读,旅游远行,运动健身,王者农药…
【今日重点:大数据学习第二阶段stage2:企业如何搭建大数据平台?个人学习如何在虚拟机上搭建整个大数据的环境?】
目录
开场白
1. 企业搭建大数据平台
1.1 大数据平台分层
1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:
- Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少
- DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成
- Flume 日志采集的工具
2. 数据存储层:字面含义,存储数据的地方,常用的有:
- MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,
- HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,
- HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL
- Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件
- Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析
3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有
- HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成
- Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive
- Flink 流式计算框架,主要针