大数据系列—大数据平台的分层结构，个人如何搭建大数据环境（stage2）

最新推荐文章于 2024-08-20 17:03:26 发布

道-闇影

最新推荐文章于 2024-08-20 17:03:26 发布

阅读量898

点赞数

本文链接：https://blog.csdn.net/qq_41200768/article/details/120110168

版权

本文介绍了企业大数据平台的分层结构，包括数据采集、存储和分析应用层，涉及Sqoop、Hadoop、Hive、Hbase等组件。同时，详细讲解了个人如何在虚拟机上搭建大数据环境，涵盖Centos7、JDK、MySQL、Hadoop、Hive、Hbase和Spark的安装步骤。

摘要由CSDN通过智能技术生成

Boys，Grils，Friends！ My name is Jinsuo.Shi. 一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域：Python，Pandas数据分析，PowerBI数据可视化,机器学习，算法等…
个人兴趣爱好：广泛阅读，旅游远行，运动健身，王者农药…

【今日重点：大数据学习第二阶段stage2：企业如何搭建大数据平台？个人学习如何在虚拟机上搭建整个大数据的环境？】

开场白

1. 企业搭建大数据平台

1.1 大数据平台分层

在这里插入图片描述

1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:

Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少

DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成

Flume 日志采集的工具

2. 数据存储层:字面含义,存储数据的地方,常用的有:

MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,

HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,

HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL

Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件

Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析

3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有

HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成

Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive

Flink 流式计算框架,主要针