初始Hadoop(一)

前言

随着互联网快速发展,越来越多的用户在日常使用网络系统过程中产生了大量的结构化数据与非结构化数据(如视频、音频、图片等),因此如何有效的存储管理与计算分析成为了难题,而Hadoop的出现就是在这样的背景下产生的。

以下是本章的主要 内容:

  • 了解大数据的特点
  • 了解大数据的应用场景
  • hadoop介绍

1. 大数据的特点

最近十多年来,由于互联网高速发展,个人与网络系统数据在不断爆炸式增长,大量结构化的数据(传统数据库存储的数据)与非结构化的数据(如视频、音频、图片等)也自然爆炸性增长。总得来说大数据有如下几点:

  1. 数据体量大

大数据体量大体现在采集、存储、分析、计算等各个方面都面临海量数据,一般至少以TB起步。

  1. 数据来源广

数据来源分为结构化数据(传统数据库存储的数据)、半结构化数据(日志、文本)、非结构化是数据(视频、音频、照片等)。

  1. 低价值密度

由于存在大量数据,如何从大量数据中高效筛选出有价值的数据成为大数据时代亟待解决的问题

  1. 速度快
    数据增长速度快,处理数据速度快,同时获取数据的速度也需要快,例如每年双十一时候如何能够高效处理海量请求下的海量订单数据考验着每一个电商。

2. 大数据应用场景

  • 电商方面

如电商方面的精准推荐商品如下图所示:
在这里插入图片描述
还有常见的大数据杀熟也是一方面应用。
在这里插入图片描述

  • 传媒方面

短视频平台抖音、b站 根据大数据算法推送用户喜欢的创作内容
在这里插入图片描述

  • 金融领域

通过大数据对个人信用进行评估,推荐合适的理财产品或评估个人贷款资格,以减少坏账的风险。

类似的应用案例很多,这里就不在一一举例。

3. Hadoop的介绍

传统数据库在处理大数据面临很大问题就是通过纵向扩展提示处理数据能力,但我们知道增加的CPU、RAM内存和磁盘总是有上限的,而且计算机服务器纵向扩展的代价是非常昂贵的,既然传统数据库也越来越难以应付海量数据的存储、计算和分析,所以能支持分布式横向扩展的Hadoop框架越来越受到更多公司的青睐,Hadoop在处理大数据方面有如下特性:

  • 海量数据处理

Hadoop是专门为处理海量大数据应用而生的,其处理的数据容量能高达PB甚至EB级。

  • 可靠性

Hadoop从设计初就充分考虑到当计算机出现硬件故障,依然能够高效存储和分析数据并且数据不会出现丢失的问题,这一切并且得益于Hadoop良好的架构设计。

  • 流式处理

传统数据库用于快速访问数据,而不是批处理。Hadoop一开始就考虑到批处理的场景,例如使用Hadoop为上百万个网页建立索引。

  • 数据一致性

与传统数据库不同,Hadoop数据文件适用于一次写多次读的业务场景。

  • 弹性收缩

Hadoop从一开始设计就采用分布式集群方式进行协同工作,所以其具有良好的扩展性与收缩性。

下一章我们将创建并配置一个伪分布式Hadoop集群。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
初始Hadoop集群,可以按照以下步骤进行操作。首先,需要进行格式化(初始化)操作,这将清理和准备HDFS。格式化操作只能执行一次,在启动集群环境之前进行。可以使用以下命令进行格式化操作: hdfs namenode -format 执行完格式化操作后,可以通过查看数据存储文件的位置来验证是否成功。例如,可以使用以下命令查看在/export/data/目录下是否存在数据存储文件: ll /export/data/hadoop-3.3.0/ 另外,如果需要将Hadoop集群初始化的内容同步到其他节点,可以使用rsync命令。例如,可以使用以下命令将/opt/module/hadoop-3.1.3/目录下的内容同步到hadoop103节点的/opt/module/hadoop-3.1.3/目录: rsync -av /opt/module/hadoop-3.1.3/ zjx@hadoop103:/opt/module/hadoop-3.1.3 通过以上操作,就可以将Hadoop集群初始化并进行必要的数据清理,使其恢复到初始化状态。 #### 引用[.reference_title] - *1* [(十一)大数据实战——hadoop集群崩溃与故障的初始化恢复](https://blog.csdn.net/yprufeng/article/details/129940585)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [搭建Hadoop集群环境三:hadoop环境初始化](https://blog.csdn.net/m0_47448095/article/details/124308645)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [HADOOP集群初始配置准备](https://blog.csdn.net/sinat_36572927/article/details/125576071)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值