数据采集-3

最新推荐文章于 2024-07-10 23:15:15 发布

Cole～～

最新推荐文章于 2024-07-10 23:15:15 发布

阅读量165

点赞数

文章标签： big data hadoop

本文链接：https://blog.csdn.net/qq_46106830/article/details/120782341

版权

HDFS

简介

HDFS - Hadoop Distributed File System分布式文件系统

➢ Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构 ➢ 主要解决海量数据的存储和海量数据的分析计算问题 ➢ 广义上来说，Hadoop通常指一个更广泛的概念——Hadoop生态圈

HDFS是Hadoop的核心

2nn机制：冷备，导回namenode

10分到15分画框图：

1 第一阶段： namenode 启动
1）第一次启动 namenode 格式化后，创建 fsimage 和 edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
2）客户端对元数据进行增删改的请求。
3） namenode 记录操作日志，更新滚动日志。
4） namenode 在内存中对数据进行增删改查。

2 第二阶段： Secondary NameNode 工作
1） Secondary NameNode 询问 namenode 是否需要 checkpoint。直接带回 namenode 是否检查结果。
2） Secondary NameNode 请求执行 checkpoint。
3） namenode 滚动正在写的 edits 日志。
4）将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
5） Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。
6）生成新的镜像文件 fsimage.chkpoint。
7）拷贝 fsimage.chkpoint 到 namenode。
8） namenode 将 fsimage.chkpoint 重新命名成 fsimage。

namenode好比目录，datanode进行实际操作，判断心跳停止多长时间就不工作了。（选择题)

考试

选择填空简答，python爬虫题。

为什么是，不能太大不能太小（简答）

节点距离

hadoop如何衡量两个节点之间的距离，找他们共同的祖先，基本是偶数。

如果将数据中心d1里的机架r1上的节点n1定义为/d1/r1/n1的话，那么将会有以下结果：

    distance(/d1/r1/n1, /d1/r1/n1) = 0 （同一节点上的两个应用程序）
    distance(/d1/r1/n1, /d1/r1/n2) = 2 （同一机架上的两个节点）
    distance(/d1/r1/n1, /d1/r2/n3) = 4 （同一数据中心里不同机架上的两个节点）
    distance(/d1/r1/n1, /d2/r3/n4) = 6 （不同数据中心的两个节点）

hadoop如何衡量两个节点之间的距离_等你下课_的博客-CSDN博客

HDFS稳健性

（奇偶校验，应该不考，奇偶校验_meng_lemon的博客-CSDN博客_奇偶校验）

热备，冷备

冷备份发生在数据库已经正常关闭的情况下，当正常关闭时会提供给我们一个完整的数据库。冷备份是将关键性文件拷贝到另外位置的一种说法。对于备份Oracle信息而言，冷备份是最快和最安全的方法。

热备份是在数据库运行的情况下，采用archivelog mode方式备份数据的方法。所以，如果你有昨天夜里的一个冷备份而且又有今天的热备份文件，在发生问题时，就可以利用这些资料恢复更多的信息。

写文件

同步发生，不是串行的。

读文件

对客户端来说是InputStream。2个blk不是同步的，是串行的，第一个blk读完才会读第二个。

实验

磁盘容量选大一点，预留内存空间50G，将虚拟磁盘储存为单个文件，完成。

装系统盘，插入物理主机。亚洲上海时间，语言，桌面安装。

centos7命令行

解压缩先进入文件夹，搜文件夹名字，tab键自动补齐，jdk所需要的环境自动全部装上，系统用不到，环境变量路径人工添加，esc，shift+：wq保存并退出。

Cole～～

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据采集-3

HDFS简介HDFS - Hadoop Distributed File System分布式文件系统➢ Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构 ➢ 主要解决海量数据的存储和海量数据的分析计算问题 ➢ 广义上来说，Hadoop通常指一个更广泛的概念——Hadoop生态圈HDFS是Hadoop的核心2nn机制：冷备，导回namenode10分到15分画框图：1 第一阶段： namenode 启动1）第一次
复制链接

扫一扫