多年开发经验大牛教授程序员如何采用Redis实现流信息状态管理！

最新推荐文章于 2024-10-20 21:00:12 发布

程序员小英

最新推荐文章于 2024-10-20 21:00:12 发布

阅读量559

点赞数 5

文章标签： redis bootstrap 数据库

本文链接：https://blog.csdn.net/2401_83384536/article/details/138156790

版权

采用Redis实现流信息状态管理

Redis是一个开源的内存数据库，支持非常丰富的数据结构，如字符串（string）、哈希表（hash）、列表（list）、集合（set）、有序集合（sorte.set）、位图（bitmap）、HyperLogLog算法、地理空间索引（geospatial index）等。丰富的数据结构支持、官方支持的Redis Cluster集群方案、原生的LRU淘汰策略，这些因素共同决定了Redis非常适用于实时流计算应用中的状态存储。下面我们就来看看Redis具体如何用于实时流计算中的流信息状态管理。

时间维度聚合特征计算

前面描述了时间维度聚合特征计算的原理，下面以“过去一周内在同一个设备上交易次数”这个计数查询为例，进行具体的讲解。

这种计数查询非常适合用Redis字符串指令中的INCR指令实现。

INCR指令对存储在指定键的数值执行原子加1操作，然后返回加1后的结果。

这里我们将7天的时间窗口划分为7个小窗口，每个小窗口代表1天。为每个小窗口分配一个key，用来记录这个窗口的事件数。key的格式如下：

$event_type.$device_id.$window_unit.$window_index

其中，“$event_type”表示事件类型，“$device_id”表示设备ID，“$window_unit”表示时间窗口单元，“$window_index”表示时间窗口索引。

例如，对于“device_id”为“d000001”的设备，如果在时间戳为1532496076032的时刻更新窗口，则计算如下：

$event_type = transaction

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天，即86 400 000毫秒

$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元，得到时间窗口索引

$key = $event_type.$device_id.$window_unit.$window_index

redis.incr($key)

上面的伪代码描述了使用Redis的INCR指令更新某个窗口的计数值。我们的设计是将更新操作和查询操作分开进行的。因此，这里只需更新一个小窗口的计数值，而不需要更新整个窗口中所有小窗口的计数值。

当查询7天窗口内的总计数值时，我们对7个子时间窗口内的计数做查询并汇总。计算如下：

$event_type = transaction

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天，即86 400 000毫秒

$window_index = 1532496076032 / $window_unit = 17737

# 用时间戳除以时间窗口单元，得到当前时间窗口索引

sum = 0

for $i in range(0, 7):

$window_index = $window_index - $i

$key = $event_type.$device_id.$window_unit.$window_index

sum += redis.get($key)

return sum

上面的伪代码使用Redis的GET指令查询了过去7个子时间窗口，也就是过去7天每天的计数值，然后将这些计数值汇总，就得到了“过去一周内在同一个设备上交易次数”这个特征值。

一度关联特征计算

前面，我们描述了关联图谱中一度关联特征计算的原理，并且为了优化存储空间和计算性能，我们使用HyperLogLog算法对原有算法做了改进。下面我们以“过去30天在同一设备上登录过的不同用户数”这个一度关联特征为例，具体讲解一度关联特征的HyperLogLog算法的实现。

类似5.2.1节中的计数计算，我们将30天的时间窗口划分为30个小窗口，每个小窗口代表1天。为每个小窗口分配一个key，用来记录这个窗口内同一设备上的不同用户数。同样，key的格式如下：

$event_type.$device_id.$window_unit.$window_index

其中，“$event_type”表示事件类型，“$device_id”表示设备ID，“$window_unit”表示时间窗口单元，“$window_index”表示时间窗口索引。

例如，对于“device_id”为“d000001”、“userid”为“u000001”的用户，交易时间为“1532496076032”，则更新窗口内设备上不同用户的算法如下：

$event_type = login

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天，即86 400 000毫秒

# 用时间戳除以时间窗口单元，得到时间窗口索引

$window_index = 1532496076032 / $window_unit = 17737

$key = $event_type.$device_id.$window_unit.$window_index

$userid = u000001

redis.pfadd($key, $userid)

上面的伪代码描述了使用Redis的PFADD指令，将新到的用户“u000001”添加到以“
login.d000001.86400000.17737”为key的HyperLogLog寄存器中。通过这个寄存器的取值，我们可以估算出时间窗口内同一设备上的不同用户数。

由于更新计算是对子时间窗口上的Hyperloglog寄存器进行更新，因此在查询时需要对各个子时间窗口上的Hyperloglog寄存器做汇总。

计算如下：

$event_type = login

$device_id = d000001

$window_unit = 86400000 # 时间窗口单元为1天，即86400000毫秒

$window_index = 1532496076032 / $window_unit = 17737 # 用时间戳除以时间窗口单元，得到时间窗口索引

$keys = [] # 创建一个用于记录不同用户的列表

for $i in range(0, 30):

$window_index = $window_index - $i

$key = $event_type.$device_id.$window_unit.$window_index

$keys += $key # 将返回的用户添加到集合里面

$count_key = random_uuid() # 生成一个uuid用于临时存储Hyperloglog寄存器合并结果

redis.pfmerge($count_key, $keys)

$count = redis.pfcount($count_key)

redis.del($count_key) # 删除临时寄存器

return $count

上面的伪代码使用Redis的PFMERGE指令，将过去30个子窗口的设备不同用户数Hyperloglog寄存器值合并起来，结果保存在临时寄存器$count_key内，然后用PFCOUNT指令根据临时寄存器的值，估计出整个窗口上不同值的个数，也就是“过去30天在同一设备上登录过的不同用户数”了。完成估计后，需要删除临时寄存器，以防止内存泄漏。