简述大数据

大数据:

学术解释:满足以下四个特征的数据:
    Volume(大量)  Velocity(高速)
    Variety(多样) Veracity(价值)
自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)

源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE

相应的实现技术:HDFS、MapReduce、HBase

    HDFS:解决大文件如何存储?如何快速的读写?如何容错?

    Block(块):把文件切成块,大小?1.* 64M 2.* 128M :解决大文件如何存储及如何快速的读写,利用备份解决容错
    DATANODE:存储数据
    NAMENODE:存储数据的元
    使用:
        shell
        java api
        第三方工具
        50070 web
    MapReduce:一种编程模型,"Map(映射)"和"Reduce(归约)"
        (我们经常使用spark框架进行替代,具体好处见spark一文)
    HBase:一个分布式的、面向列的开源数据库

Python大数据为pyspark。

    依赖关系:
        Pyspark:需要Python、Spark
                        Spark:需要hadoop、jdk
                            hadoop:需要jdk
大数据解决方案:
    hadoop:速度慢:他的磁盘IO太多
    spark:内存(DAG)计算方式
    处理数据的形式为:离线处理,不可以实时处理

实时框架:Apache Flink---Blink(阿里巴巴)
        Apache Storm

近似实时:1s(最低)
jps:
    SparkSubmit          :spark的批处理运行模式
    DATANODE             :存储数据
    NAMENODE             :存储数据的元,NameNode控制DataNode
    SecondaryNameNode    :Secondary NameNode是NameNode的冷备份
    ResourceManager      :负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。
    NodeManager          :ResourceManager在每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向ResourceManager/Scheduler提供资源使用报告

    当输入start-dfs.sh时,jps列表中出现DATANODE、NAMENODE时,hdfs服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:50070进行测试,若访问成功,即服务开启。
    当输入start-yarn.sh时,jps列表中出现NodeManager、ResourceManager时,yarn服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:8088进行测试,若访问成功,即服务开启  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值