数据中台(四)企业数据汇聚联通:打破孤岛数据
目标:各个业务系统的数据实现互联互通打破数据孤岛,各业务场景的数据存储选型
一、数据采集、汇聚的方法工具
线上采集行为
- 客户端埋点
- 全埋点:APP的SDK、小程序、智能穿戴设备
- 可视化埋点
- 代码埋点
- 服务端埋点:http服务器access_log日志
线下行为采集
- wifi移动设备采集:图像视频
- 其他传感器
- 应用场景:安防、监测等
互联网数据采集
- 爬虫:scapy、webmagic、apache Nutch2等
内部数据汇聚
- 从数据组织分三类:
- 结构化数据:excle、数据表等
- 半结构化数据:json、xml等
- 非结构化数据:图像、视音频、文件
- 从时效性分两类:
- 离线:针对时效性低、吞吐量大数据的业务
- 实时:低延时业务场景数据,ETL如DataX、Canal、MaxWell、新闻热点内容推荐系统、Sqoop
二、数据交换产品
数据源管理
- 关系型数据库:Oracle、MySQL等
- 非关系型数据库:HBase、Redis、Elasticsearch(检索)、Neo4j、MongoDB等
- 网络及MQ:Kafka、HTTP等
- 文件系统:HDFS、FTP、OSS、CSV、TXT、Excle等
- 大数据相关:Hive、Impala、Kudu等
离线数据交换
- 1、前置稽核:从源端数据同步开始之前,对数据质量规则校验,以此来推进配置警告策略控制数据同步是否运行;
- 2、数据转换:非标准转为标准数据(字段截取、替换、编码等),借助ETL工具实现;
- 3、跨级群数据同步:从A集群数据同步B集群,创建数据同步任务;
- 4、全量同步:分表全量同步和库全量同步
- 5、增量同步:新增、覆盖、更新三种策略,即数据覆盖
实时数据交换
- 1、实时同步两个核心:数据订阅服务、数据消费服务
- 数据订阅服务:
- 数据消费服务:
三、数据存储的选择
数据规模
数据生产方式
数据应用方式
- 离线与在线:
- 在线:磁盘阵列、云存储等
- 离线:硬盘、磁带等
- OLTP联机事务处理与OLAP联机分析处理:
- OLTP:用于存储和管理日常操作数据,银行证券业务等
- OLAP:用于分析数据,支持营销、市场决策
- 存储技术:
- 1、分布式系统:HDFS文件系统
- 2、NoSQL数据库:HBbsae、Neo4j、MongoDB等
- 3、云数据库