到底什么是大数据,大数据职业的具体工作内容是什么?

大数据是指对海量、持续增长的数据进行处理的技术,包括数据存储(如HadoopHDFS)、数据计算(如Spark、Hive)和数据传输(如Kafka)。ApacheHadoop开启了大数据时代,提供分布式处理解决方案。大数据有5V特性,核心工作是数据存储、计算和传输。文章还介绍了不同类型的数据库和消息系统在大数据生态中的作用。
摘要由CSDN通过智能技术生成

很多人对大数据的概念是十分模糊的,本文开始之前,我们先来弄清楚两件事:

  1. 了解什么是数据?

  2. 了解数据对现实生活而言有什么意义?

  3. 大数据是什么?大数据的工作核心是什么?

一、数据是什么?

进入21世纪,我们的生活就迈入了“数据时代”。作为21世纪的新青年,数据一词经常出现。

数据:一种可以被鉴别的对客观事件进行记录的符号。

简单来说:就是对人类的行为及产生的事件的一种记录。

我们无时无刻的在产生数据:

很多人对大数据的概念是十分模糊的,本文开始之前,我们先来弄清楚两件事:

  1. 了解什么是数据?

  2. 了解数据对现实生活而言有什么意义?

  3. 大数据是什么?大数据的工作核心是什么?

一、数据是什么?

进入21世纪,我们的生活就迈入了“数据时代”。作为21世纪的新青年,数据一词经常出现。

数据:一种可以被鉴别的对客观事件进行记录的符号。

简单来说:就是对人类的行为及产生的事件的一种记录。

我们无时无刻的在产生数据:

这些我们日常活动所产生的信息记录,就是数据。

我们以淘宝来举例

其实数据的背后都会隐藏着巨大的价值,丰富的数据可以支撑让我们更好的了解事和物在现实世界的运行规律。

大数据技术栈就是:对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系;

总结一下前面所说内容:

什么是数据?— 人类的行为以及产生的事件的一种记录称之为数据。

数据有什么价值?
— 对数据的内容进行深入分析,可以更好的帮助我们了解事和物在现实世界的运行规律
— 比如购物的丁丹记录,可以帮助平台更好的了解消费者,从而促进交易。

二、了解大数据技术体系事如何诞生的

大数据的诞生和信息化以及互联网的发展是密切相关的。

大数据的诞生和信息化以及互联网的发展事密切相关的。

早期计算机(上世纪70年带之前)大多数事互相独立的,各自处理各自的数据。

上世纪70年带后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但多数事军事、科研等用途。

上世纪90年带左右,全球互联的互联网网出现。

个人、企业均可参与其中,真正逐步的实现了全球互联。

在2000年后,互联网上的商业行为剧增。

现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步的。

在互联网参与者众多的前提下,商业公司、科研单位,所能获得的数据量也是剧增。

剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。

在这个过程中分布式处理技术诞生了,逐步演化后:

Apache Hadoop 是一款开源的分布式处理技术栈为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术

  • 基于Hadoop MapReduce的:分布式数据计算技术

  • 基于Hadoop YARN的:分布式资源调度技术

Apache Hadoop的出现具有非常重大的意义:

  • 为业界提供了”第一款”企业级开源大数据分布式技术解决方案

  • 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现

二、大数据的特征

大数据有5个主要特征,称之为:5V特性

我们一起看看,大数据的特征:

大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据挖掘出高质量的结果。也就是数据计算——>数据存储——>数据传输。

由此,我们可以知道大数据核心工作为:数据存储—>数据计算—>数据传输

三、大数据软件生态

数据存储

Apache Hadoop - HDFS:Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

Apache HBase:Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术。HBase是基于HDFS之上构建的。

Apache KUDU:Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

云平台存储组件:除此以外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

数据计算

Apache Hadoop - MapReduce:Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

Apache Hive:Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术(被很多公司使用)

Apache Spark:是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品;

Apache Flink:同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

数据传输

Apache Kafka:Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域同样是明星产品;

Apache Pulsar:是一款分布式的消息系统。也有非常多的使用者;

Apache Flume:是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

Apache Sqoop:是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输。

综上所述,大数据体系内的软件种类非常多,在后续的学习中我们都可以逐步的接触到这些软件。

总结:

1. 大数据的核心工作:

  • 存储:妥善保存海量待处理数据

  • 计算:完成海量数据的价值挖掘

  • 传输:协助各个环节的数据传输

2. 大数据软件生态

  • 存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

  • 计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

  • 传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

  • 开发入门:Linux入门 → MySQL数据库
  • 核心基础: Hadoop
  • 数仓技术: Hive数仓项目
  • PB内存计算: Python入门 → Python进阶→ pyspark框架 → Hive+Spark项目

2023年Python+大数据学习路线图Python+大数据学习路线图(2023版)开发入门:Linux入门 → MySQL数据库核心基础: Hadoop 数仓技术: Hive数仓项目 PB内存计算: Python入门 → Python进阶→ pyspark框架 → Hive+Spark项目 完整的Python+大数据…https://zhuanlan.zhihu.com/p/450898507

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值