大数据介绍及hadoop简介

最新推荐文章于 2022-04-22 14:18:09 发布

叶子不落

最新推荐文章于 2022-04-22 14:18:09 发布

阅读量290

点赞数

分类专栏： hadoop hive 大数据文章标签：分布式 hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/FAN_1998/article/details/107411063

版权

hive 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

hadoop

3 篇文章 0 订阅

订阅专栏

大数据

1 篇文章 0 订阅

订阅专栏

1、

什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据的特征

4V特征：

Volume(大数据量)：90% 的数据是过去两年产生
Velocity(速度快)：数据增长速度快，时效性高
Variety(多样化)：数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低)：需挖掘获取数据价值

固有特征：

时效性
不可变性

2、

分布式计算

分布式计算将较大的数据分成小的部分进行处理

	传统分布式计算	新的分布式计算 - Hadoop
计算方式	将数据复制到计算节点	在不同数据节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

3、

Hadoop是什么？

Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

Hadoop发展及版本

Hadoop起源于搜索引擎Apache Nutch
创始人：Doug Cutting
2004年 - 最初版本实施
2008年 - 成为Apache顶级项目
Hadoop发行版本
社区版：Apache Hadoop
Cloudera发行版：CDH
Hortonworks发行版：HDP

为什么使用Hadoop?

高扩展性，可伸缩
高可靠性
多副本机制，容错高
低成本
无共享架构
灵活，可存储任意类型数据
开源，社区活跃

Hadoop vs RDBMS**(Hadoop与关系型数据库对比)**

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析ACID事务处理企业业务系统	处理非结构化数据海量数据存储计算

Hadoop生态圈

在这里插入图片描述

Zookeeper

是一个分布式应用程序协调服务
解决分布式集群中应用系统的一致性问题
提供的功能
配置管理、命名服务、分布式同步、队列管理、集群管理等
特性
全局数据一致
可靠性、顺序性、实时性
数据更新原子性
Zookeeper集群
角色：Leader、Follower、Observer

Hadoop架构

HDFS(Hadoop Distributed File System)
分布式文件系统，解决分布式存储
MapReduce
分布式计算框架
YARN
分布式资源管理系统
在Hadoop 2.x中引入
Common
支持所有其他模块的公共工具程序

HDFS特点

HDFS优点
支持处理超大文件
可运行在廉价机器上
高容错性
流式文件写入
HDFS缺点
不适合低延时数据访问场景
不适合小文件存取场景
不适合并发写入，文件随机修改场景

HDFS特点

叶子不落

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据介绍及hadoop简介

1、什么是大数据？大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的特征4V特征：Volume(大数据量)：90% 的数据是过去两年产生Velocity(速度快)：数据增长速度快，时效性高Variety(多样化)：数据种类和来源多样化结构化数据、半结构化数据、非结构化数据Value(价值密度低)：需挖掘获取数据价值固有特征：时效性不可变性2、分布式计算分布式计算将较大的数据分成小的部分进行处理** **传统分布式计算新的分布式
复制链接

扫一扫