从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

最新推荐文章于 2024-04-15 16:51:48 发布

MOKE_XR

最新推荐文章于 2024-04-15 16:51:48 发布

阅读量2.9k

点赞数 4

分类专栏：大数据文章标签： hadoop hdfs mapreduce hbase 大数据

本文链接：https://blog.csdn.net/MOKEXFDGH/article/details/106259787

版权

本文从大数据的基本概念出发，详细介绍了Hadoop的组成部分，包括HDFS、MapReduce、HBase和Hive。阐述了Hadoop的运行模式、分布式文件系统HDFS的原理以及MapReduce的计算模型。同时，对HBase这一非关系型数据库进行了深入探讨，解析了其实现原理和数据读写过程。最后，简要介绍了大数据处理工具Hive的使用，以及Hadoop的安装配置步骤。

摘要由CSDN通过智能技术生成

文章目录

- 概述

概述

IT领域每隔十五年就会迎来一次重大变革：

1980：个人计算机
1995：互联网
2010：物联网、云计算和大数据

信息科技为大数据时代提供技术支撑：

存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加

大数据是由结构化和非结构化数据组成的

10%的结构化数据，存储在数据库中
90%的非结构化数据，它们与人类信息密切相关

大数据技术的不同层面及其功能：
在这里插入图片描述

大数据计算模式及其代表产品：
在这里插入图片描述

云计算与物联网：

云计算：虚拟化、分布式存储、分布式计算、多租户

物联网：利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起，形成人与物、物与物相联，实现信息化和远程管理控制。【识别和感知技术（二维码、RFID、传感器等）、网络与通信技术、数据挖掘与融合技术】

大数据与云计算、物联网的关系：
在这里插入图片描述

Hadoop

Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中。

它的核心是为海量数据提供存储的分布式文件系统HDFS（Hadoop Distributed File System）和对数据进行计算的MapReduce。

MapReduce模型包括两个函数Map和Reduce，Map负责把任务分解为多个任务，Reduce负责把分解后的多个任务处理结果汇总起来。把对大数据集的操作分发给主节点管理下的从节点共同完成，然后通过整合各从节点的中间结果，从而得到最终结果。

BigTable

为处理 PB 级别数据的非关系数据库，是一个稀疏的、分布式的、持久化存储的多维度排序 Map。

采用键值对(key-value)方式存储，键(key)有三维：行键、列键、时间戳。

（row:string, column:string, time:int64）→string

Hadoop

而Hadoop是一个能够对大量数据进行分布式处理的软件框架，具有高可靠性、高效性、高可扩展性、高容错性、低成本、支持多种编程语言的特性。

Hadoop版本分为两代：Hadoop1.0 (MapReduce、HDFS)、Hadoop2.0(MapReduce、HDFS、YARN)。

项目结构：

Hadoop安装配置

创建Hadoop用户

sudo useradd -m hadoop -s /bin/bash //创建 hadoop 用户，并以 /bin/bash 为shell

sudo passwd hadoop //设置 hadoop 用户的密码

sudo useradd hadoop sudo //给 hadopp 用户添加管理员权限