RPC:远程过程调用
序列化包:从内存序列化到硬盘的过程 类似于java中类
一次写入多次读取:
map
reduce 规约 键值 把相同键的的值整合在一起
/usr /usr的区别???是hodoop还是lINUX
usr是user的缩写,是曾经的HOME目录,然而现在已经被/home取代了,现在usr被称为是Unix System Resource,
即Unix系统资源的缩写。
/usr 是系统核心所在,包含了所有的共享文件。
它是 unix 系统中最重要的目录之一,涵盖了二进制文件,各种文档,各种头文件,还有各种库文件;还有诸多程序,
例如 ftp,telnet 等等。曾经的 /usr 还是用户的家目录,存放着各种用户文件 ——
现在已经被 /home 取代了(例如 /usr/someone 已经改为 /home/someone)。
现代的 /usr 只专门存放各种程序和数据,用户目录已经转移。
虽然 /usr 名称未改,不过其含义已经从“用户目录”变成了“unix 系统资源”目录。值得注意的是,在一些 unix 系统上,仍然把 /usr/someone 当做用户家目录,如 Minix。
pic 11
NameNode:主节点 不存储实际数据
SecondaryNameNode:不是备注 还是辅助节点
DataNode:子节点 上传的东西都在子节点
pic12
NameNode 知道每个节点的储存空间 生成一个列表传给客户端
客户端上传东西给DataNote 节点间的复制是集群的事 跟客户端木有关系
文件分块跟并行也是有关系的 帮助理解后面hadoop也会有并行
pic13 14 赶紧把内存里的弄出来 以防内存变动后东西丢失
pic15
public List<Map<String,int>> map(String kv){
List<Map<String,int>> result = ..
String[] words=kv.spilt(",")
for(String word:words){
result.add(new Hash<String,>)
}
:K1,V1 和K2,V2可以是一样的 而且一个K1,V1可以对应多个K2,V2
YARN:另外的资源管理者 达到资源的最大利用
ApplicationMaster:有多少个ApplicationMaster 现在就有多少个任务在集群上运行 如果满足要求 就分配集群 运行程序
应用和ApplicationMaster有关
Container并行的块 把运算(算法)丢给块 让块来运行 数据是块本地的 (把算法丢给块的速度比把数据丢过去的速度快) 运算时是本地化的运算
把资源分成1000块 平均有1000+用户
Hadoop集群规模
spark是在内存里运行的
Flume:管道 把日志从本地传到HDFS
Hive:数据仓库 查询 敏感信息 主要是做查询、分析
Oozie:工作流
HDFS:一次写入 多次读取
HBse :可以随机修改 查不到实际没删除(有时间间隔在里面) 节省空间???间隔时间??? 有一种机制叫“逻辑删除”
序列化包:从内存序列化到硬盘的过程 类似于java中类
一次写入多次读取:
map
reduce 规约 键值 把相同键的的值整合在一起
/usr /usr的区别???是hodoop还是lINUX
usr是user的缩写,是曾经的HOME目录,然而现在已经被/home取代了,现在usr被称为是Unix System Resource,
即Unix系统资源的缩写。
/usr 是系统核心所在,包含了所有的共享文件。
它是 unix 系统中最重要的目录之一,涵盖了二进制文件,各种文档,各种头文件,还有各种库文件;还有诸多程序,
例如 ftp,telnet 等等。曾经的 /usr 还是用户的家目录,存放着各种用户文件 ——
现在已经被 /home 取代了(例如 /usr/someone 已经改为 /home/someone)。
现代的 /usr 只专门存放各种程序和数据,用户目录已经转移。
虽然 /usr 名称未改,不过其含义已经从“用户目录”变成了“unix 系统资源”目录。值得注意的是,在一些 unix 系统上,仍然把 /usr/someone 当做用户家目录,如 Minix。
pic 11
NameNode:主节点 不存储实际数据
SecondaryNameNode:不是备注 还是辅助节点
DataNode:子节点 上传的东西都在子节点
pic12
NameNode 知道每个节点的储存空间 生成一个列表传给客户端
客户端上传东西给DataNote 节点间的复制是集群的事 跟客户端木有关系
文件分块跟并行也是有关系的 帮助理解后面hadoop也会有并行
pic13 14 赶紧把内存里的弄出来 以防内存变动后东西丢失
pic15
public List<Map<String,int>> map(String kv){
List<Map<String,int>> result = ..
String[] words=kv.spilt(",")
for(String word:words){
result.add(new Hash<String,>)
}
:K1,V1 和K2,V2可以是一样的 而且一个K1,V1可以对应多个K2,V2
YARN:另外的资源管理者 达到资源的最大利用
ApplicationMaster:有多少个ApplicationMaster 现在就有多少个任务在集群上运行 如果满足要求 就分配集群 运行程序
应用和ApplicationMaster有关
Container并行的块 把运算(算法)丢给块 让块来运行 数据是块本地的 (把算法丢给块的速度比把数据丢过去的速度快) 运算时是本地化的运算
把资源分成1000块 平均有1000+用户
Hadoop集群规模
spark是在内存里运行的
Flume:管道 把日志从本地传到HDFS
Hive:数据仓库 查询 敏感信息 主要是做查询、分析
Oozie:工作流
HDFS:一次写入 多次读取
HBse :可以随机修改 查不到实际没删除(有时间间隔在里面) 节省空间???间隔时间??? 有一种机制叫“逻辑删除”