MySQL不太记得什么的笔记。。。待补充整理

本文介绍了Hadoop及其生态系统的关键组件,包括NameNode、SecondaryNameNode和DataNode的作用,以及HDFS的工作原理。此外还探讨了YARN资源管理、ApplicationMaster的任务调度机制、Container的并行处理方式,并简要提及了Spark、Flume、Hive和Oozie等工具的应用场景。
摘要由CSDN通过智能技术生成
RPC:远程过程调用 
序列化包:从内存序列化到硬盘的过程 类似于java中类
一次写入多次读取:
map
reduce 规约 键值 把相同键的的值整合在一起




/usr   /usr的区别???是hodoop还是lINUX




usr是user的缩写,是曾经的HOME目录,然而现在已经被/home取代了,现在usr被称为是Unix System Resource,
即Unix系统资源的缩写。
/usr 是系统核心所在,包含了所有的共享文件。
它是 unix 系统中最重要的目录之一,涵盖了二进制文件,各种文档,各种头文件,还有各种库文件;还有诸多程序,
例如 ftp,telnet 等等。曾经的 /usr 还是用户的家目录,存放着各种用户文件 —— 
现在已经被 /home 取代了(例如 /usr/someone 已经改为 /home/someone)。
现代的 /usr 只专门存放各种程序和数据,用户目录已经转移。
虽然  /usr 名称未改,不过其含义已经从“用户目录”变成了“unix 系统资源”目录。值得注意的是,在一些 unix 系统上,仍然把 /usr/someone 当做用户家目录,如 Minix。




pic 11
NameNode:主节点   不存储实际数据
SecondaryNameNode:不是备注 还是辅助节点
DataNode:子节点   上传的东西都在子节点


pic12


NameNode 知道每个节点的储存空间 生成一个列表传给客户端
客户端上传东西给DataNote 节点间的复制是集群的事 跟客户端木有关系
文件分块跟并行也是有关系的 帮助理解后面hadoop也会有并行




pic13 14 赶紧把内存里的弄出来 以防内存变动后东西丢失


pic15 


public List<Map<String,int>> map(String kv){


     List<Map<String,int>> result = ..
   String[] words=kv.spilt(",")
   for(String word:words){
           result.add(new Hash<String,>)
        


}
:K1,V1  和K2,V2可以是一样的 而且一个K1,V1可以对应多个K2,V2






YARN:另外的资源管理者   达到资源的最大利用


ApplicationMaster:有多少个ApplicationMaster 现在就有多少个任务在集群上运行   如果满足要求 就分配集群 运行程序
应用和ApplicationMaster有关


Container并行的块 把运算(算法)丢给块 让块来运行 数据是块本地的 (把算法丢给块的速度比把数据丢过去的速度快)      运算时是本地化的运算






把资源分成1000块  平均有1000+用户








Hadoop集群规模
spark是在内存里运行的


Flume:管道 把日志从本地传到HDFS
Hive:数据仓库  查询 敏感信息   主要是做查询、分析
Oozie:工作流


HDFS:一次写入 多次读取
HBse :可以随机修改  查不到实际没删除(有时间间隔在里面)  节省空间???间隔时间???        有一种机制叫“逻辑删除”
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值