《阿里巴巴大数据之路》记录--日志采集同步

架构图
在这里插入图片描述

日志采集

在这里插入图片描述

两大指标:PV页面浏览量,UV客户数

日志产生过程

http 请求和响应
	请求http
		请求行:请求方法(如GET/POST),URL(最重要),HTTP协议版本号(如1.1)
		请求头:附加信息,如记录用户ID的Cookie
		正文:可选,一般为空
	响应http
		状态行:状态码(如200,404)
		响应报头:如请求头Cookie有缺失,响应头对增加Cookie更新指令
		响应正文:一般非空,浏览器响应结果,如HTML

日志采集动作
	时间:发生在浏览器开始解析响应正文文档时,HTML文档某个位置触发日志采集操作

除了PV,UV外,阿里也支持“黄金令箭”自主注册采集的功能。

对于采集到的数据也需要做好清洗和预处理(如识别异常数据,数据补正等)

无线客户端的日志采集采用SDK来完成

**客户端日志产生过程**

日志的统一

APP的两种日志H5和Native日志,为了计算方便等原因,需要对Native和H5进行统一
阿里采用了H5向Native日志统一,个人对客户端不了解,就简单略过了

设备标识

需要一个值来唯一确定客户,如UUID等
这里阿里采用了UTDID。也就是苹果和安卓每个设备一个ID来唯一标识

日志传输
无线客户端上传,压缩和传输的特殊性

在这里插入图片描述
在这里插入图片描述

日志处理方案例子

1 日志分流和定制处理
2 采集和计算一体化设计

数据同步

直连同步

配置简单,适合业务数据的同步。不适合仓库数据同步,即使使用主备依然性能较差

在这里插入图片描述
数据文件同步

上传和下载容易丢包。
所以经常也需要上传校验文件,传输中加密和压缩后再解密解压等形式。可以增加安全性和传输效率

在这里插入图片描述
在这里插入图片描述
数据库日志解析同步

该读操作可以在操作系统层面完成,不需要通过数据库,避免了数据库压力
通过网络协议实现数据文件传输,确保文件正确接收和网络数据包的正确顺序
性能好,效率高,业务系统影响小
但是也有数据延迟,部署实时抽取数据系统代价大,数据漂移遗漏等问题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
批量数据同步

DataX 可分布式纯内存不读写磁盘操作,也没有进程通信

在这里插入图片描述
实时数据同步

在这里插入图片描述
在这里插入图片描述
数据同步问题和解决方案

分库分表

分库分表增加了数据同步难度,使用全局管理的中间表可以很好改善

在这里插入图片描述
增量和全量合并问题

传统合并时insert+update,但是大数据存储经常不支持update,并且update性能也慢
目前流行 当天增量全外连接昨天全量+新数据全覆盖昨天数据 的方式,全量更新性能也比update好

同步性能问题

线程数量的合理分配

数据飘逸的问题

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我爱肉肉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值