数据采集-3

HDFS

简介

HDFS - Hadoop Distributed File System分布式文件系统

➢ Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了 系统底层细节透明的分布式基础架构 ➢ 主要解决海量数据的存储和海量数据的分析计算问题 ➢ 广义上来说,Hadoop通常指一个更广泛的概念——Hadoop生态圈

HDFS是Hadoop的核心

2nn机制:冷备,导回namenode

10分到15分画框图:

1 第一阶段: namenode 启动
1)第一次启动 namenode 格式化后, 创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
2) 客户端对元数据进行增删改的请求。
3) namenode 记录操作日志,更新滚动日志。
4) namenode 在内存中对数据进行增删改查。

2 第二阶段: Secondary NameNode 工作
1) Secondary NameNode 询问 namenode 是否需要 checkpoint。 直接带回 namenode 是否检查结果。
2) Secondary NameNode 请求执行 checkpoint。
3) namenode 滚动正在写的 edits 日志。
4)将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
5) Secondary NameNode 加载编辑日志和镜像文件到内存,并合并。
6) 生成新的镜像文件 fsimage.chkpoint。
7) 拷贝 fsimage.chkpoint 到 namenode。
8) namenode 将 fsimage.chkpoint 重新命名成 fsimage。
 

namenode好比目录,datanode进行实际操作,判断心跳停止多长时间就不工作了。(选择题)

考试

选择填空简答,python爬虫题。

为什么是,不能太大不能太小(简答)

节点距离

hadoop如何衡量两个节点之间的距离,找他们共同的祖先,基本是偶数。

如果将数据中心d1里的机架r1上的节点n1定义为/d1/r1/n1的话,那么将会有以下结果:

    distance(/d1/r1/n1, /d1/r1/n1) = 0 (同一节点上的两个应用程序)
    distance(/d1/r1/n1, /d1/r1/n2) = 2 (同一机架上的两个节点)
    distance(/d1/r1/n1, /d1/r2/n3) = 4 (同一数据中心里不同机架上的两个节点)
    distance(/d1/r1/n1, /d2/r3/n4) = 6 (不同数据中心的两个节点)

hadoop如何衡量两个节点之间的距离_等你下课_的博客-CSDN博客

 HDFS稳健性

(奇偶校验,应该不考,奇偶校验_meng_lemon的博客-CSDN博客_奇偶校验

 热备,冷备

冷备份发生在数据库已经正常关闭的情况下,当正常关闭时会提供给我们一个完整的数据库。冷备份是将关键性文件拷贝到另外位置的一种说法。对于备份Oracle信息而言,冷备份是最快和最安全的方法。

热备份是在数据库运行的情况下,采用archivelog mode方式备份数据的方法。所以,如果你有昨天夜里的一个冷备份而且又有今天的热备份文件,在发生问题时,就可以利用这些资料恢复更多的信息。

写文件

同步发生,不是串行的。

读文件

对客户端来说是InputStream。2个blk不是同步的,是串行的,第一个blk读完才会读第二个。

实验

磁盘容量选大一点,预留内存空间50G,将虚拟磁盘储存为单个文件,完成。

装系统盘,插入物理主机。亚洲上海时间,语言,桌面安装。

centos7命令行

解压缩先进入文件夹,搜文件夹名字,tab键自动补齐,jdk所需要的环境自动全部装上,系统用不到,环境变量路径人工添加,esc,shift+:wq保存并退出。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
数据分析与可视化一直是数据科学领域中最重要的部分之一。Jupyter作为一个开源的交互式计算环境,可实现数据采集、数据分析和可视化,且易于学习和使用。在这里,我们演示一个基于Jupyter的数据采集-数据分析-可视化综合案例。 首先,我们需要采集数据。我们可以通过使用Python的requests库来访问网站,并使用BeautifulSoup库提取所需数据。例如,我们可以采集电影评分网站IMDb的电影评分数据。 接下来,我们需要进行数据清洗和预处理。我们可以使用Python的pandas库来清理和加工数据。例如,我们可以删除缺失值、重复值和异常值,并将数据类型转换为适合分析和可视化的格式。 在数据预处理后,我们可以开始进行数据分析。我们可以使用Python的numpy、matplotlib和seaborn库等,在Jupyter中进行数据分析。例如,我们可以绘制电影的得分分布、类别分布和年份分布图表等。 最后,我们可以开始进行可视化。我们可以使用Python的plotly和bokeh库等,实现交互式数据可视化。例如,我们可以制作热力图、地图和动态图等,并将它们添加到Jupyter Notebook中,使读者可以与之交互。 综上所述,Jupyter是一个功能强大、易于学习和使用的数据采集-数据分析-可视化综合工具。通过基于Jupyter的数据分析和可视化,我们可以更好地理解和解释数据,更好地进行决策和规划。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cole~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值