大数据技术原理及应用学习笔记(一)

本文是关于大数据技术的学习笔记,重点探讨Hadoop 1.0和2.0的数据存储与计算。介绍了HDFS的架构、应用场景、角色以及关键特性,包括高可靠性、元数据持久化和联邦机制。
摘要由CSDN通过智能技术生成

学习内容

TB–PB–EB—ZB–YB

数据采集-----数据存储-----数据计算--------- 数据分析-----------数据挖掘-----数据可视化

      HDFS 	MapReduce离线计算    Hive(数据仓库)  Miner

     HBase	Spark迭代计算
		Storm实时计算
		Flink 批处理和流处理

Flume
Kafka
Hue
Oozie

data-------information---------knowledge----–wisdom
port Miner Farmer

大数据的核心内容两个方面:
数据存储
数据计算

Hadoop1.0
数据存储:HDFS
数据计算:MapReduce
一个数据块的大小64M
1PB/64MB=??多少个数据块

Hadoop2.0
数据存储HDFS
数据计算:MapReduce
YARN:(离线计算、实时计算、迭代计算、批处理和流处理统一起来进行管理达到资源共享)
Zookeeper:分布式协调服务,保证系统高可用HA
一个数据块的大小128M
1PB/128MB=???

Goole发表了三篇论文:
GFS:goole File System----> HDFS 分布式文件系统
MapReduce-----------------> MapReduce离线计算框架
Bigtable------------------>HBase非关系行数据库(NoSQL)

HDFS:分布式文件系统

文件是按照分块存储、每个块的大小是128M(Hadoop2.0)、

1PB的的一个文件:一个文件名字、文件长度、文件属主、文件属组、文件权限(读写执行wrx)统称为元数据(meta data)
		多少个数据块、块的位置;
		元数据----占用一定空间---内存空间(有限的)

1PB的1万个文件:一万个文件名字,每个文件是不是都有属主、属组、文件权限、数据块、数据块位置统称为元数据(meta data)
		元数据----占用一定空间---内存空间(有限的)	
	
特点:按照块来进行存储,副本的存储机制,每个副本大小是3
		流式的进行访问,适合存储大数据&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值