数据中台(四)企业数据汇聚联通:打破孤岛数据

数据中台(四)企业数据汇聚联通:打破孤岛数据

目标:各个业务系统的数据实现互联互通打破数据孤岛,各业务场景的数据存储选型

一、数据采集、汇聚的方法工具

线上采集行为

  • 客户端埋点
    • 全埋点:APP的SDK、小程序、智能穿戴设备
    • 可视化埋点
    • 代码埋点

  • 服务端埋点:http服务器access_log日志

线下行为采集

  • wifi移动设备采集:图像视频
  • 其他传感器
  • 应用场景:安防、监测等

互联网数据采集

  • 爬虫:scapy、webmagic、apache Nutch2等

内部数据汇聚

  • 从数据组织分三类:
    • 结构化数据:excle、数据表等
    • 半结构化数据:json、xml等
    • 非结构化数据:图像、视音频、文件

  • 从时效性分两类:
    • 离线:针对时效性低、吞吐量大数据的业务
    • 实时:低延时业务场景数据,ETL如DataX、Canal、MaxWell、新闻热点内容推荐系统、Sqoop

二、数据交换产品

数据源管理

  • 关系型数据库:Oracle、MySQL等
  • 非关系型数据库:HBase、Redis、Elasticsearch(检索)、Neo4j、MongoDB等
  • 网络及MQ:Kafka、HTTP等
  • 文件系统:HDFS、FTP、OSS、CSV、TXT、Excle等
  • 大数据相关:Hive、Impala、Kudu等

离线数据交换

  • 1、前置稽核:从源端数据同步开始之前,对数据质量规则校验,以此来推进配置警告策略控制数据同步是否运行;
  • 2、数据转换:非标准转为标准数据(字段截取、替换、编码等),借助ETL工具实现;
  • 3、跨级群数据同步:从A集群数据同步B集群,创建数据同步任务;
  • 4、全量同步:分表全量同步和库全量同步
  • 5、增量同步:新增、覆盖、更新三种策略,即数据覆盖

实时数据交换

  • 1、实时同步两个核心:数据订阅服务、数据消费服务
  • 数据订阅服务:
  • 数据消费服务:

三、数据存储的选择

数据规模

数据生产方式

数据应用方式

  • 离线与在线:
    • 在线:磁盘阵列、云存储等
    • 离线:硬盘、磁带等

  • OLTP联机事务处理与OLAP联机分析处理:
    • OLTP:用于存储和管理日常操作数据,银行证券业务等
    • OLAP:用于分析数据,支持营销、市场决策
  • 存储技术:
    • 1、分布式系统:HDFS文件系统
    • 2、NoSQL数据库:HBbsae、Neo4j、MongoDB等
    • 3、云数据库
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值