Hadoop 体系介绍

本文详细介绍了Hadoop的产生背景、概念、特点、价值,以及在大数据和云计算中的地位。Hadoop作为一套开源软件平台,提供分布式文件系统HDFS、MapReduce计算框架等,广泛应用于数据服务基础平台建设、用户画像和网站点击流数据挖掘。同时,文章还涵盖了分布式系统的基础概念和离线数据分析流程。
摘要由CSDN通过智能技术生成

目录

1、Hadoop 快速入门

1.1、数据 

1.2、大数据

1.2.1、概念

1.2.2、大数据特点

1.2.3、大数据价值

1.3、Hadoop 的产生背景

1.4、什么是 Hadoop?

1.5、hadoop 在大数据和云计算当中的位置和关系

1.6、Hadoop 技术应用架构概览

1.6.1、Hadoop 应用于数据服务基础平台建设

1.6.2、Hadoop 用于用户画像

1.6.3、hadoop 用于网站点击流数据挖掘

1.7、hadoop 生态圈以及各组成部分的简介

2、分布式系统概述

3、离线分析系统结构概述


1、Hadoop 快速入门

1.1、数据 

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。

数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字, 称为数字数据。

在计算机系统中,数据以二进制信息单元 0,1 的形式表示。

1.2、大数据

1.2.1、概念

指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集

最基本的衡量:大小

数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

1 MB = 1,024 KB = 1,048,576 Bytes(普通用户数据级别)

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB(企业级数据级别)

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB(全球数据总量级别)

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

据国际数据公司(IDC)统计,全球数据总量预计 2020 年达到 44ZB,中国数据量将达到 8060EB, 占全球数据总量的 18%

1.2.2、大数据特点

容量大,种类多,速度快,价值高

容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息

新浪微博,3 亿用户,每天上亿条微博

朋友圈,8 亿用户,每天亿级别朋友圈

种类(Variety):数据类型的多样性,包括文本,图片,视频,音频

结构化数据:可以用二维数据库表来抽象,抽取数据规律

半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML 等,也可称非结构化

非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等

速度(Velocity):指获得数据的速度以及处理数据的速度

数据的产生呈指数式爆炸式增长

处理数据要求的延时越来越低

价值(Value):合理运用大数据,以低成本创造高价值

综合价值大,隐含价值大

单条数据记录无价值,无用数据多

总结:

1、数据量大,处理难度大,但是蕴含价值也大

2、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确

3、要求对数据进行及时处理,追求更极致更完善的用户体验

4、数据成为新的资源,掌握数据就掌握了巨大的财富

1.2.3、大数据价值

在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数 据集合并后进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值