易学笔记-第1章 初识Hadoop(1)

第1章 初识Hadoop/1.1 数据换算单位

  • 数据换算单位
  1. 数据换算单位
    1. Kilo    K  1K = 1,024个字节
    2. Meg     M  1M = 1024K
    3. Giga    G  1G = 1024M
    4. Tera    T  1T = 1024G
    5. Peta    P  1P = 1024T
    6. Exa     E  1E = 1024P
    7. Zetta   Z  1Z = 1024E
    8. Yotta   Y  1Y = 1024Z

第1章 初识Hadoop/1.2 数据的存储与分析

  • 数据的存储与分析
  1. Hadoop
    1. HDFS(Hadoop Distributed File System):文件系统,用于分布式存储数据,特点
      1. 一个文件保存3个副本
    2. MapReduce:分布式计算,擅长于整个数据集的动态查询

第1章 初识Hadoop/1.3 相对于其他系统的优势

  • 相对于其他系统的优势

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.1 关系型数据库管理系统

  • 关系型数据库管理系统
  1. 问题:为什么用MapReduce,而不使用关系型数据库进行批量分析呢?
    1. 关系型数据库
      1. 往往存在大量的数据更新,这就存在着一个寻址成本(寻址:将磁头移动到特定硬盘位置读写操作的过程)
      2. 适合点查询和更新
    2. MapReduce
      1. 比较适合以批处理的方式分析整个数据集的问题,尤其是动态分析
      2. 适合一次写入,多次读取
  2. 两者差异:
    1. 结构化程度对比
      1. 数据库适合结构化数据
      2. MapReduce比较适合半结构化数据或者非结构化数据
    2. MapReduce的运行时间随时集群化而降低,但是数据库的SQL查询一般不具备这种特性

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.2 高性能计算

  • 高性能计算(high performance computing:HPC)
  1. 高性能计算采用作业分散到集群的各个节点上,然后节点访问共有的文件系统。如果数据量巨大,各个节点的带宽瓶颈问题会非常突出
  2. MapReduce
    1. 尽量在节点上存储本地数据,以降低数据的本地快速访问,同时采用网络拓扑结构保留带宽
    2. MapReduce能够实现失效检查,这意味着各个任务之间是独立的

第1章 初识Hadoop/1.3 相对于其他系统的优势/1.3.3 志愿计算

  • 志愿计算
  1. 志愿项目
    1. SETI(对外星智能的探索(search for extraterrestrial intelligence))
    2. SLPN:搜索大素数(Search large prime number)
    3. Folding
  2. 志愿服务:志愿服务将问题分解为多个块,每一块称为一个工作单元,然后将往世界各地进行分析
  3. 与MapReduce的比较:
    1. 志愿计算适合成千上万的CPU并行工作,花费的是CPU时间,而MapReduce花费的是网络带宽时间
    2. 志愿计算不要求高速网络,而MapReduce 数据中心内有高速的网络
    3. 志愿服务的接入的计算机是不可信的,而MapReduce 连接数据中心的计算机是安全可靠的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
### 回答1: spark-3.3.0-bin-hadoop3.tgz和spark-3.3.0-bin-without-hadoop.tgz是Apache Spark开源项目提供的两种软件包。它们都是用于在分布式计算环境中进行大规模数据处理和分析的工具。 spark-3.3.0-bin-hadoop3.tgz包含了Apache Spark的二进制文件以及Hadoop分布式文件系统的依赖库。Hadoop是一个开源的分布式计算框架,它提供了分布式存储和处理大规模数据的能力。如果你计划在Hadoop集群上运行Spark应用程序,那么你应该选择这个软件包。 spark-3.3.0-bin-without-hadoop.tgz是一个独立的Spark软件包,没有包含Hadoop依赖库。如果你已经在你的系统上配置了Hadoop环境,或者你想在其他分布式文件系统上运行Spark应用程序,那么你可以选择这个软件包。 在选择软件包时,你应该根据你的需求和环境来决定。如果你已经有了Hadoop环境并且想在上面运行Spark应用程序,那么应该选择spark-3.3.0-bin-hadoop3.tgz。如果你只是想在单机或其他分布式文件系统上运行Spark应用程序,那么可以选择spark-3.3.0-bin-without-hadoop.tgz。 ### 回答2: spark-3.3.0-bin-hadoop3.tg和spark-3.3.0-bin-without-hadoop.tgz是Apache Spark的不同版本的压缩文件。 spark-3.3.0-bin-hadoop3.tg是包含了Apache Hadoop版本3.x的已编译的Apache Spark版本。Apache Spark是一个开源的分析引擎,用于处理大规模数据计算和分析。它支持并行处理,能够在大规模集群上进行分布式计算任务的执行。而Apache Hadoop是一个用于处理大数据的开源框架,它提供了分布式存储和计算的能力。因此,当使用spark-3.3.0-bin-hadoop3.tg时,可以方便地在与Hadoop版本3.x兼容的环境中使用Apache Spark,并且可以充分利用Hadoop的优势。 spark-3.3.0-bin-without-hadoop.tgz是不包含Apache Hadoop的已编译Apache Spark版本。这个版本适用于用户已经在集群中安装了独立的Hadoop环境,或者希望使用其他版本的Hadoop的情况。通过使用spark-3.3.0-bin-without-hadoop.tgz,用户可以自由选择与他们的Hadoop环境兼容的Spark版本,并且可以更容易地进行集成和调试。 总之,spark-3.3.0-bin-hadoop3.tg和spark-3.3.0-bin-without-hadoop.tgz是Apache Spark的不同版本的压缩文件,分别适用于已安装了Hadoop版本3.x的环境和希望使用其他版本Hadoop或已有独立Hadoop环境的用户。用户可以根据自己的需求选择对应的版本进行安装和使用。 ### 回答3: spark-3.3.0-bin-hadoop3.tg 和 spark-3.3.0-bin-without-hadoop.tgz 是两个版本的 Apache Spark 软件包。 spark-3.3.0-bin-hadoop3.tg 是一个含有 Hadoop 的 Apache Spark 软件包。Hadoop 是一个用于处理大规模数据的开源框架,它提供了分布式存储和计算的能力。这个软件包的目的是为了与 Hadoop 3.x 版本兼容,它包含了与 Hadoop 的集成以及针对分布式存储和计算的优化。如果你想要在已经安装了 Hadoop 3.x 的集群上使用 Apache Spark,这个软件包将是一个好的选择。 另一方面,spark-3.3.0-bin-without-hadoop.tgz 是一个不包含 Hadoop 的 Apache Spark 软件包。这个软件包主要用于那些已经在集群中运行了其他的大数据处理框架(如 Hadoop、Hive 等)的用户。如果你的集群已经配置好了其他的大数据处理框架,而且你只需要 Spark 的计算引擎,那么这个软件包会更加适合你。 无论你选择哪个软件包,它们都提供了 Apache Spark 的核心功能,例如分布式计算、内存计算、数据处理、机器学习等。你可以根据你的实际需求和环境选择合适的软件包进行安装和配置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易学笔记(qq:1776565180)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值