大数据系列—大数据平台的分层结构,个人如何搭建大数据环境(stage2)

本文介绍了企业大数据平台的分层结构,包括数据采集、存储和分析应用层,涉及Sqoop、Hadoop、Hive、Hbase等组件。同时,详细讲解了个人如何在虚拟机上搭建大数据环境,涵盖Centos7、JDK、MySQL、Hadoop、Hive、Hbase和Spark的安装步骤。
摘要由CSDN通过智能技术生成

Boys,Grils,Friends! My name is Jinsuo.Shi. 一个不正经的大数据开发工程师,目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈:DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域:Python,Pandas数据分析,PowerBI数据可视化,机器学习,算法等…
个人兴趣爱好:广泛阅读,旅游远行,运动健身,王者农药…

【今日重点:大数据学习第二阶段stage2:企业如何搭建大数据平台?个人学习如何在虚拟机上搭建整个大数据的环境?】

开场白

1. 企业搭建大数据平台

1.1 大数据平台分层

在这里插入图片描述

1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:

  • Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少
  • DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成
  • Flume 日志采集的工具

2. 数据存储层:字面含义,存储数据的地方,常用的有:

  • MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,
  • HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,
  • HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL
  • Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件
  • Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析

3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有

  • HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成
  • Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive
  • Flink 流式计算框架,主要针
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道-闇影

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值