如何通过查找表对数据添加新维度信息

无论是数据分析还是日志处理,对已有内容进行关联和富化都是常用的技术手段。查找表( Lookup Table )作为数据富化的一种常见方式,凭借其高效便捷的特点,成为数据处理中对数据添加新维度信息的重要方法。


用户在鸿鹄平台中,可以在 SQL 中方便地使用查找表,根据查找表设定的映射规则,对数据进行富化。本篇文章将详细介绍鸿鹄平台的查找表功能。

什么是查找表

查找表由数据和字段映射规则构成。其数据为一张二维数据表,由若干列组成;映射规则用于指定查找表的索引字段名称。

在 SQL 查询中使用查找表富化数据时,可以根据指定的索引字段,对查找表中的数据进行快速查找,并利用查找命中的数据对原始数据进行富化。

查找表的典型使用场景

查找表的典型使用场景主要可以分为以下两类:

●一类是需要在查询时准确地使用最新的查找表中的信息

查找表做数据富化是发生在 SQL 查询运行过程中,实现的是动态的数据关联。它和在 ETL 做数据关联富化的最大区别在于查询时的动态关联,可以利用到最新的查找表中的数据。

如果在数据存储之前的 ETL 链路中把数据富化,富化的结果也会存储到磁盘当中。这在某些场景中可能会带来计算误差和使用不便。

例如,在分析 WEB 服务访问的日志场景中,通常会需要直达访问的客户端 IP 所在的运营商和地域。此时我们将使用一个 IP 地址库的查找表,完成IP地址到实际地理区域和 ISP 运营商的映射。由于 IP 地址库信息可能随着地址段划分的变化更新。如果在日志存储之前就先对 IP 地址的地理位置进行富化,随后存储富化结果。则可能在 IP 地址库更新之后,造成分析结果不准确。

在这样的场景当中,使用鸿鹄提供的查找表功能构建 IP 地址到地理位置的映射关系,在每次查询运行时动态查询 IP 对应的地址位置信息,则可以保证每次查询使用的都是最新的查找表当中的数据,从而实现准确的分析。

●另一类典型场景是将常用的字段转换关系构建成查找表,节省磁盘存储开销和磁盘 IO

相比于在数据存储之前做好字段富化,我们可以通过合理使用查找表的功能,减少数据存储,优化查询。

例如:在大部分应用软件中,都会对错误码( Error Code )对应的错误信息提示( Error Message )和错误类型( Error Type )提供一张映射表。通常原始日志中只包含错误码,并不包含错误码对应的错误信息。但在分析应用软件日志时,为了直观地分析出是哪类错误和具体什么错误,我们经常需要根据日志当中的错误码,找到对应的错误类别和错误信息。

如果在日志存储之前就使用 ETL 的方法,将错误码映射到的错误类别和错误信息一并保存到磁盘,难免会造成磁盘空间的浪费。并且,在查询读取数据时,每次都需要从磁盘读取这些错误信息相关的数据,消耗磁盘 IO 。

在此场景下,通过将错误码和错误信息的对应关系创建成一个查找表,在查询当中动态地把错误码转换成错误信息提示,能有效地减少数据的存储,节约磁盘 IO 。

鸿鹄平台已支持的查找表类型

目前鸿鹄平台支持创建两类查找表:

●CSV 文件查找表:上传一个 CSV 文件,并将其内容作为查找表的数据。

CSV 文件查找表可看作一份静态数据查找表。所谓静态查找表,即每次数据更新之后,可保存成一个 CSV 文件并上传使用,上传之后表内数据保持不变。

该类型查找表的最大优点在于简单易用,可直接通过 UI 界面逐步完成上传文件、预览数据、配置索引字段以及定义查找表的映射规则。

●高级查找表:通过提供 SQL 查询,将查询结果作为查找表的数据

对于需要查找表数据动态更新的场景,静态的文件查找表并不能满足其需求。此时可采用高级查找表类型,通过运行 SQL 查询,将其返回结果集缓存为查找表数据来使用。

另外,即使查找表数据相对静态,但需要通过一系列复杂的数据处理逻辑才能得到,也推荐使用高级查找表类型。可将生成查找表所需的原始数据导入平台,然后把查找表的计算算法通过 SQL 固化,使得查找表数据更易维护。

查找表的管理:可以参考使用手册(TODO: 需要放上使用手册的link)。

查找表和JOIN的异同

在鸿鹄中,查找表和 JOIN 都可以完成对字段的富化,从数据处理逻辑上来说,这两个方法是完全等价的,能够得到一致的计算结果。但是,由于两者在系统实现层面有区别,所以两个功能对应的适用场景也略有区别。

具体的区别点见下表:

查找表功能的最佳实践

●为了保证查询的快速高效,平台中的查找表都是缓存在内存当中,实际使用的时候,应该控制查找表中的数据量,以免占用过多的内存;

●对于静态数据,优先使用 CSV 文件查找表;

●合理安排高级查找表的刷新周期,确保最新的数据能够及时更新到内存当中的哈希表中。高级查找表会执行 SQL 查询,并且将查询结果构造成在内存中的哈希表,通过合理安排查找表的刷新周期,完成查找表的数据更新。

鸿鹄平台中的查找表是读时建模过程中最常见和非常高效的做字段映射和变换的方法之一。合理地使用查找表,也能更好地发挥读时建模的特性,从而实现灵活且准确的数据处理和分析场景,帮助用户节省时间和成本,更加灵活高效地实现数据分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值