Hadoop v3.1 大数据技术快速入门

软件架构

已于 2022-12-27 09:11:59 修改

阅读量261

点赞数

分类专栏： Hadoop 文章标签： hadoop hdfs hbase mapreduce hive

于 2022-06-07 17:46:01 首次发布

本文链接：https://blog.csdn.net/vbnetfun/article/details/125170180

版权

Hadoop 专栏收录该内容

1 篇文章

订阅专栏

通过理论讲解-环境搭建-项目案例实战，让初学者快速掌握hadoop大数据技术栈，包括HDFS、MapReduce、YARN、HBase、Hive等等。

专栏介绍

Hadoop 是由 Java 语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是 HDFS 与 MapReduce。
HDFS 为海量的数据提供了存储，而 MapReduce 为海量的数据提供了计算。
可以把 HDFS 理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。
把 MapReduce 理解成为一个计算引擎，按照 MapReduce 的规则编写 Map 计算 Reduce 计算的程序，可以完成计算任务。
YARN：Hadoop 2 开始使用的资源管理框架。
HBase：Google分布式数据库Bigtable的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。为了提高数据可靠性和健壮性，发挥HBase处理大数据量等功能，一般使用HDFS作为HBase的底层数据存储方式。
MapReduce：分布式计算框架。
Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

专栏大纲

一般把Hadoop Common、HDFS、YARN、MapReduce 这四部分统称为Hadoop 框架，而在Hadoop 生态环境中，还有进行SQL 化管理HDFS的Hive 组件，支持OLTP业务的列式、分布式数据库HBase组件等。

技术专栏主要包含如下内容：
* Hadoop大数据技术生态系统和基础知识
* CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试
* Hadoop v3.1.2 单机伪分布式安装、配置和测试
* Hadoop分布式文件系统HDFS核心概念、体系结构和数据读写过程
* Hadoop分布式文件系统HDFS 常用API以及应用实例
* Java应用中HDFS客户端远程连接Hadoop FileSystem异常情况分析和解决办法
* Hadoop列式数据库HBase 数据模型、系统架构和运行机制-快速入门
* 列式数据库HBase v2.2.3 最新版安装单机模式、启动和简单练习shell命令
* 列式数据库HBase v2.2.3 最新版伪分布式模式配置、启动运行
* 大数据快速读写-HBase 常用的Shell命令
* 大数据快速读写-HBase Java API编程实例-HBaseConn和HBaseUtil工具类
* 大数据快速读写-HBase Java API编程实例-单元测试和shell命令验证
* HBase表的设计原则，包括预分区、列族设计、RowKey设计
* 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-1
* 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-2
* 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-3
* 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-4
* Hadoop分布式离线计算框架-MapReduce体系结构和工作流程
* Hadoop分布式离线计算框架-MapReduce和YARN
* MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 1
* MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 2
* Hadoop集群资源管理调度框架-YARN
* YARN/MapReduce编程实践-WordCount on YARN代码编写
* YARN/MapReduce编程实践-WordCount on YARN编译打包运行
* YARN/MapReduce编程实践-实现文件合并和去重
* YARN/MapReduce编程实践-实现对输入文件的排序
* Hadoop v3.1大数据技术快速入门技术专栏-项目实例源代码
* Hadoop数据仓库框架Hive快速入门-简介、系统架构和执行流程
* Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置（含MySQL）-Part 1
* Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置（含MySQL）-Part 2
* Hive编程实践-Hive中常用HiveQL操作
* Hive编程实践-分区表（Partition）和分桶表（Bucket）-Part 1
* Hive编程实践-分区表（Partition）和分桶表（Bucket）-Part 2
* Hive编程实践-Hive ACID和事务表支持的详细操作和快速入门
* Hive编程实践-WordCount应用实例
* Hive编程实践-内置函数和用户自定义函数（含示例项目源代码）-Part 1
* Hive编程实践-内置函数和用户自定义函数（含示例项目源代码）-Part 2
* Hive编程实践-通过Java和JDBC驱动访问Hive，附实例项目源代码
* Hive高级特性-HiveServer2配置启动和Beeline的基本操作
* Impala 实时性交互查询分析工具
* Hadoop和关系型数据库的数据传输工具-Sqoop入门
* 分布式消息队列Kafka-数据交互枢纽
* Apache Kudu构建高性能实时数据分析存储系统 -入门简介