【大数据】基于大数据平台的日志分析系统 Day2-Hadoop整体介绍及集群搭建

最新推荐文章于 2021-04-28 16:11:20 发布

砖家家家

最新推荐文章于 2021-04-28 16:11:20 发布

阅读量1.4k

点赞数

分类专栏：大数据文章标签：大数据日志分析系统 Hadoop Hadoop集群搭建 HDFS

本文链接：https://blog.csdn.net/qq_34489943/article/details/88423298

版权

本文介绍了大数据的定义、特点以及衡量单位，重点讲解了Hadoop的产生背景、核心组件以及Hadoop集群的分布式和伪分布式搭建过程，包括集群规划、配置、软件安装、主机映射和免密登录等关键步骤。

摘要由CSDN通过智能技术生成

数据¶

数据就是数值，也就是我们通过观察、实验或计算得出的结果。数据有很多种，最简单的就是数字。数据也可以是文字、图像、声音等。在计算机系统中，数据以二进制信息单元 0,1 的形式表示。

大数据¶

大数据（big data），指的是在一定时间范围内不能以常规软件工具处理（存储和计算）的大而复杂的数据集。

据国际数据公司(IDC)统计，全球数据总量预计 2020 年达到 44ZB，中国数据量将达到 8060EB，占全球数据总量的 18%

一句话：容量大，种类多，速度快，价值高

产生背景¶

Hadoop 是Apache Lucene 创始人 Doug Cutting 创建的，最早起源于 Apache Nutch项目。Nutch 的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题 ——如何解决数十亿网页的存储和索引问题
2003 年、2004 年谷歌发表的三篇论文为该问题提供了可行的解决方案
- 分布式文件系统 GFS，可用于处理海量网页的存储
- 分布式计算框架 MapReduce，可用于处理海量网页的索引计算问题
- 分布式数据库 BigTable，每一张表可以存储上 billions 行和 millions 列
Nutch 的开发人员完成了相应的开源实现 HDFS 和 MapReduce，并从 Nutch 中剥离成为独立项目 Hadoop，到 2008 年 1 月，Hadoop 成为 Apache 顶级项目，迎来了它的快速发展期

什么是Hadoop¶