简述大数据

最新推荐文章于 2023-07-01 17:15:36 发布

free97zl

最新推荐文章于 2023-07-01 17:15:36 发布

阅读量600

点赞数

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/free97zl/article/details/78816163

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

大数据：

学术解释：满足以下四个特征的数据：
    Volume（大量）  Velocity（高速）
    Variety（多样） Veracity（价值）
自我解释：一台机器不能存储，一台物理机器短时间内不能计算出（处理）

源于Google三篇论文：GFS、MAPREDUCE、BIGTABLE

相应的实现技术：HDFS、MapReduce、HBase

    HDFS：解决大文件如何存储？如何快速的读写？如何容错？

    Block（块）：把文件切成块，大小？1.* 64M 2.* 128M ：解决大文件如何存储及如何快速的读写，利用备份解决容错
    DATANODE：存储数据
    NAMENODE：存储数据的元
    使用：
        shell
        java api
        第三方工具
        50070 web
    MapReduce：一种编程模型，"Map（映射）"和"Reduce（归约）"
        （我们经常使用spark框架进行替代，具体好处见spark一文）
    HBase：一个分布式的、面向列的开源数据库

Python大数据为pyspark。

    依赖关系：
        Pyspark：需要Python、Spark
                        Spark：需要hadoop、jdk
                            hadoop：需要jdk

大数据解决方案：
    hadoop：速度慢：他的磁盘IO太多
    spark：内存（DAG）计算方式
    处理数据的形式为：离线处理，不可以实时处理

实时框架：Apache Flink---Blink(阿里巴巴)
        Apache Storm

近似实时：1s（最低）

jps:
    SparkSubmit          ：spark的批处理运行模式
    DATANODE             ：存储数据
    NAMENODE             ：存储数据的元，NameNode控制DataNode
    SecondaryNameNode    ：Secondary NameNode是NameNode的冷备份
    ResourceManager      ：负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）。
    NodeManager          ：ResourceManager在每台机器上的代理，负责容器管理，并监控它们的资源使用情况，以及向ResourceManager/Scheduler提供资源使用报告

    当输入start-dfs.sh时，jps列表中出现DATANODE、NAMENODE时，hdfs服务开启成功！也可以在防火墙关闭的前提下，在浏览器地址栏输入：ip：50070进行测试，若访问成功，即服务开启。
    当输入start-yarn.sh时，jps列表中出现NodeManager、ResourceManager时，yarn服务开启成功！也可以在防火墙关闭的前提下，在浏览器地址栏输入：ip：8088进行测试，若访问成功，即服务开启

free97zl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简述大数据

大数据：学术解释：满足以下四个特征的数据： Volume（大量） Velocity（高速） Variety（多样） Veracity（价值）自我解释：一台机器不能存储，一台物理机器短时间内不能计算出（处理）源于Google三篇论文：GFS、MAPREDUCE、BIGTABLE相应的实现技术：HDFS、MapReduce HDFS：解决大文件如何存储？如何快速的读写？如何容错
复制链接

扫一扫

专栏目录