Doris部分列更新在广告行业应用

背景:业务需要在不同的时间点对同一个session_id上的广告行为(展示、点击、转换等)数据的更新。
基于HBase归因

  • 更新原理:以session_id为Key在HBase中写入数据,数据更新是先点查到历史数据,补齐当前数据后再次写入。
  • 方案优点:数据入库和更新快,支持高效点查
  • 方案缺点:
    1.不支持数据分析和报表统计;
    2. 不支持联邦查询;
    3. HBase社区发展不活跃;
    4. 每次要读取数据然后写入,IO压力大

基于Doris的更新

  • 更新原因:使用Doris部分列(imp、click、conv)更新能力实现广告上行为数据的更新
  • 方案优点:
    1.更新能力强:基于MVCC机制,数据更新其实是个append写入的过程,因此更新能力和写入能力基本匹配)。
    在这里插入图片描述

对于大数据架构来说。高并发的写入并不难,难点在于高并发的更新。如何在上亿数据中快速找到要更新的数据并对数据进行更新一直是大数据领域比较难处理的问题。在这个问题上Doris通过MVCC多版本并发控制的机制来实现。
特别的在unique模型中,当我们写入一个数据时,如果数据在库中不存在则会写入一个版本数据,当我们再次对该数据进行更新时会直接再写入一个版本,此时数据的变更(新增、修改、删除)在Doris中以多版本的形式存在。用户查询的时Doris会将最新的版本对应的数据返回给用户,并在Compaction时对历史变更数据进行清理。这种设计很好的解决了海量数据更新难问题。
接下来我们通过一个例子看下:

  1. 首先我们执行insert 写入3条的订单数据,此时Doris数据中不但包含了原始数据,还包含SEQUENCE列(DORIS_SEQUENCE_COL)和删除标记(DORIS_DELETE_SIGN)。SEQUENCE列用于支持在高并发更新时数据更新的顺序性问题,删除标记用于对删除的数据进行记录。
  2. 当我们将订单1的cost修改为30的时候,数据通过Append的形式以新的版本写入Doris。
  3. 当我们对订单2的数据进行删除时,数据仍然通过Append的形式以新的版本写入Doris,只不过此处写入的数
    DELETE_SIGN字段变为1了,表示该条数据被删除了,当Doris读取数据的时候发现最新版本的数据被标记删除了,则会将该数据从查询结果中过滤。

2.支持ad-hoc多维分析和报表查询
3.支持灵活数据导出
4.基于Doris更新后的数据可以构建数据仓库服务
5.支持联邦查询和湖仓加速

使用Doris部分列更新功能实在广告行业的展示、点击、转换等数据的更新实战如下:

  1. 创建表
CREATE TABLE IF NOT EXISTS request_log
(
    `session_id` LARGEINT NOT NULL COMMENT "id",

    `imp_time` DATE REPLACE_IF_NOT_NULL COMMENT "展示",
    `imp_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT "",

    `click_time` DATE REPLACE_IF_NOT_NULL COMMENT "点击",
    `click_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT "",

    `conv_time` DATE REPLACE_IF_NOT_NULL COMMENT "转化",
    `conv_data` VARCHAR(20)  REPLACE_IF_NOT_NULL COMMENT ""
)
AGGREGATE KEY(`session_id`)
DISTRIBUTED BY HASH(`session_id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);
  1. 更新展示数据
mysql> insert into request_log(session_id,imp_time,imp_data)VALUES(1,'2022-12-20','imp');
Query OK, 1 row affected (0.05 sec)
{'label':'insert_31a037849e2748f6_9b00b852d106eaaa', 'status':'VISIBLE', 'txnId':'385642'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+-----------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time | conv_data |
+------------+------------+----------+------------+------------+-----------+-----------+
| 1          | 2022-12-20 | imp      | NULL       | NULL       | NULL      | NULL      |
+------------+------------+----------+------------+------------+-----------+-----------+
1 row in set (0.01 sec)
  1. 更新点击数据
ysql> insert into request_log(session_id,click_time,click_data)VALUES(1,'2022-12-21','click');
Query OK, 1 row affected (0.03 sec)
{'label':'insert_2649087d8dc046bd_a39d367af1f93ab0', 'status':'VISIBLE', 'txnId':'385667'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+-----------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time | conv_data |
+------------+------------+----------+------------+------------+-----------+-----------+
| 1          | 2022-12-20 | imp      | 2022-12-21 | click      | NULL      | NULL      |
+------------+------------+----------+------------+------------+-----------+-----------+
1 row in set (0.01 sec)

mysql>
  1. 更新转化数据
mysql> insert into request_log(session_id,conv_time,conv_data)VALUES(1,'2022-12-22','conv');
Query OK, 1 row affected (0.03 sec)
{'label':'insert_dadfa5f0f65e46b8_a6c54259110791ad', 'status':'VISIBLE', 'txnId':'385684'}

mysql> select * from request_log;
+------------+------------+----------+------------+------------+------------+-----------+
| session_id | imp_time   | imp_data | click_time | click_data | conv_time  | conv_data |
+------------+------------+----------+------------+------------+------------+-----------+
| 1          | 2022-12-20 | imp      | 2022-12-21 | click      | 2022-12-22 | conv      |
+------------+------------+----------+------------+------------+------------+-----------+
1 row in set (0.00 sec)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值