大数据概述

大数据概述

1,什么是大数据

  • 商品预测
    问题1:大量订单数据如何存储?
    问题2:大量订单数据如何计算?
  • 天气预报
    问题1:大量天气数据如何存储?
    问题2:大量天气数据如何计算?
  • 核心问题
  1. 数据的存储 --> 分布式文件系统(HDFS)
  2. 数据的计算 --> 分布式计算:MapReduce、Spark(RDD)

2,数据仓库

  • 数据仓库就是一个数据库,一般只做Select
  • Hadoop和Spark是数据仓库的一种实现方式
    在这里插入图片描述

3,OLTP和OLAP

  • OLTP:Online Transaction Processing 联机事务处理,指insert、update、delete --> 事务
    传统的关系型数据库解决的问题
  • OLAP:Online Analytic Processing 联机分析处理,一般只做Select
    数据仓库就是一种OLAP的应用系统
    Hadoop、Spark可以看成是一种数据仓库的解决方案

4,Google的基本思想

  • GFS(Google File System) --> HDFS:Hadoop Distributed File System
  1. 分布式文件系统
    在这里插入图片描述

  2. 大数据的存储问题

  3. HDFS中,记录数据保存的位置信息(元信息) --> 采用倒排索引
    在这里插入图片描述
    HDFS = NameNode + SecondaryNameNode + DataNode

  • MapReduce
    编程模型
    在这里插入图片描述
    Yarn = ResourceManager + NodeManager
  • BigTable:大表 --> NoSQL数据库:HBase
  1. 关系型数据库:Oracle、MySQL等 --> 行式数据库 --> insert、update、delete
  2. 常见的NoSQL数据库
    Redis:内存数据库
    HBase:面向列 --> 列式数据库 --> select
    MongoDB:面向文档(BSON文档:是JSON的二进制)
  3. 基本思想:所有数据存入一张表中:牺牲空间换时间
    HBase = Zookeeper + HMaster(主节点)+ RegionServer(从节点)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhang_zero

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值