大数据简介

前言

数据是什么

进入21世纪,我们的生活就迈入了"数据时代",作为21世纪的新青年,"数据"一词经常出现,数据无时无刻的在影响着我们的现实生活。

我们的日常活动所产生的信息记录都是数据,数据的背后都会隐藏着巨大的价值,丰富的数据支撑可以让我们更好的了解事和物在现实世界的运行规律


大数据的简介

1.大数据的发展

大数据的诞生和信息化以及互联网的发展是密切相关的。

大数据的诞生和信息化以及互联网的发展是密切相关的。在2000年后,互联网上的商业行为剧增,现在知名的互联网公司(谷歌、
AWS、腾讯、阿里等)也是在这个年代开始起步。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的
数据量也是剧增。剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。在这个过程中,分布式处理技术诞生了。

在这里插入图片描述
在这里插入图片描述

Apache Hadoop 是一款开源的分布式处理技术栈

为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术

  • 基于Hadoop MapReduce的:分布式数据计算技术

  • 基于Hadoop YARN的:分布式资源调度技术

2.什么是大数据

狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。

广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

3.大数据的特征

在这里插入图片描述

4.大数据的核心工作

大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

在这里插入图片描述

4.大数据软件生态

大数据软件生态,基本上围绕着三大工作体系:数据存储,数据计算,数据传输

数据存储

  • Apache Hadoop - HDFS

    Apache Hadoop框架内的组件HDFS是大数据体系中使用

    最为广泛的分布式存储技术。

  • Apache HBase

​ Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术

​ HBase是基于HDFS之上构建的。

数据计算

  • Apache Hadoop - MapReduce

​ Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎

​ 对大数据的发展做出了卓越的贡献。

  • Apache Hive

​ Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop

​ 的MapReduce技术。

  • Apache Spark

    Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

    是大数据体系中的明星计算产品。

  • Apache Flink

​ Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。

​ 特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

数据传输
  • Apache Kafka

    Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

    Apache Kafka在大数据领域也是明星产品。

  • Apache Pulsar

​ Apache Pulsar同样是一款分布式的消息系统。

​ 在大数据领域同样有非常多的使用者。

  • Apache Flume

​ Apache Flume是一款流式数据采集工具,可以从非常多的数据源中

​ 完成数据采集传输的任务。

  • Apache Sqoop

    Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库

    之间进行数据传输。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了大数据的简介,帮助自己了解了大数据软件生态以及发展。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值