数据中台(-让数据用起来)-读书笔记8

(2020.11.11)

数据交换产品

       数据交换中心目的是屏蔽底层工具的复杂性,以可视化配置的方式提供给企业用户;需考虑数据孤岛,满足异构存储、异构数据类型的交换需求;同时,还要考虑不同时效下的数据互通。

1. 数据源管理:管理数据所用的存储

  •  关系型数据库:如Oracle、Mysql、SqlServer、Greenplum等
  • NoSql存储:如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neoj4J等
  • 网络及MQ:如Kafka、HTTP等
  • 文件系统:如Hdfs、FTP、OSS、CSV、Txt、Excel等
  • 大数据相关:如Hive、Impala、Kudu、MaxCompute、ADB、LibrA、ELk等

2. 离线数据交换:对数据实效要求低、吞吐量大的场景,解决大规模数据的批量迁移问题

  • 原理:将不同数据源的交换抽象为从源头数据源读取数据的读取插件(采集数据将数据发送给数据交换核心模块),以及向目标端写入的写入插件(从数据核心交换模块取数据,并将数据写入目标端);
  • 特点

      a. 前置稽核:在源端数据同步开始前,可以进行数据治理规则校验,根据配置规则的阻塞、告警等策略控制数据同步是否运行;

      b. 数据转换:将各类非标准化数据转换为标准化数据格式,并将转化后的数据推送到大数据平台制定的位置或者库表;

      c. 跨集群数据同步

      d. 全量同步:分为表全量同步、库全量同步;

      e. 增量同步:分为新增、覆盖、更新三中策略;

3. 实时数据交换:负责把数据库、日志、爬虫等数据实时接入Kafka、Hive、Oracle等存储中,便于后续进行实时计算或提供查询分析使用


数据存储的选择

1. 在线与离线

  • 在线存储:存储设备和所存储的数据时刻保持“在线”状态,可供用户随意读取,满足计算平台对数据访问的速度要求,一般为磁盘、磁盘阵列、云存储等
  • 离线存储:对在线存储的数据备份,防范发生数据灾难,不经常被调用,一般远离应用系统。

2. OLTP与OLAP

  • OLTP(On-Line Transaction Processing,联机事务处理):专注于面向事务的任务的一类数据处理,一版为高可用的在线系统,以小的事务以及小的查询为主;
  • OLAP(On-Line Analytical Processing,联机分析处理):即数据仓库,对准确性、事务性和实时性要求低,对当前和历史数据进行分析,执行大量的查询操作,帮助市场做决策、制定营销策略

3. 存储技术

  • 分布式系统:包含多个自主的处理单元,通过计算机网络互连写作完成分配的任务

       a. 分布式文件系统(HDFS):是一个高容错性系统,适用于批量处理,提供高吞吐量的数据访问

       b. 分布式键值系统:存储关系简单的半结构化数据

  • Nosql数据库(非关系型数据库):可支持超大规模数据存储,灵活的数据模型可很好的支撑Web2.0应用,有强大的可伸缩扩展的能力,包含

       a. 键值数据库:高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展,如Redis

       b. 列族数据库:将数据存储在列族中,而列族里的行则把许多列数据与本行的“行键”(row key)关联起来,列族用来把通常需要一并访问的相关数据分成组,能快速执行跨集群写入操作并易于对此扩展的数据库(如Hbase)

       c. 文档数据库(如MongoDB)

       d. 图形数据库(如Neo4j)

          说明:关系型数据库已经无法满足web2.0需求(海量数据管理需求、数据高并发需求、高扩展性和高可用功能)

  • 云数据库:基于云技术计算的一种共享技术架构方案,是部署和虚拟化在云计算环境中的数据库。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值