前言
Table2Analysis是发表在AAAI2020上的关于多维数据表格分析的文章,提出了Table2Analysis,从大量(Table,analysis)对中学习常用的分析模式,并推荐对任何一个以前从未见过的表进行分析。
Table2Charts发表在ACM会议KDD ’21(Conference on Knowledge Discovery and Data Mining),提出了 Table2Charts 框架,该框架可以从大量的(表,图表)对语料库中学习通用模式。此外,基于具有复制机制和启发式搜索的深度 Q-learning,Table2Charts 可进行表到序列的生成,其中每个序列都遵循图表模板。
一、Table2Analysis
1 动机与贡献
1.1 动机
数据分析自动推荐(automatic recommendation of data analyses)可以避免多维数据表分析时琐碎和耗时的操作。Excel电子表格或Power BI 报告,同时提供源数据集和结果视觉效果,嵌入了跨用户的通用分析模式(Common Analysis),包括数据语义的典型组合模式和关于数据特征的模式。
需要设计一种学习和推荐常见分析模式的技术。
1.2 贡献
- 新的通用分析任务。它需要学习数据分析领域中结构化预测和推荐的共同智慧。
- 设计了一个基于语言的Table2Analysis框架来学习和生成常见的分析,第一个利用表中的非结构化文本自动学习所需语义组合的方法。
- 收集了数据透视表推荐任务的大规模数据集。
2 问题
2.1 问题抽象
1. 抽象分析过程
问题场景:多维数据表数据字段:维度(类别属性)用于分组、 测量值(数值属性)通过聚合操作测量一组数据。
分析过程为先选择关心的测量值,然后分组,最后选择聚合函数。
过程抽象为一个3元组:<维度、测量、聚合函数>
目的:构建能够在较低层次上模仿人类范式的机器学习模型,并推荐在较高层次上的常见分析。
完整分析(高级层次):推荐引擎为用户提供一个数据分析候选列表,每个候选列表都是一个完整的分析,
下一步分析操作(低级层次):在用户构建分析的每一步,推荐引擎都会建议下一步的候选操作。
分析语言设计:将分析过程编码为一系列动作标记。每个表都是一组数据字段标记,每个分析都是一系列操作/引用标记。
- 源字段 数据字段f:字段名、数据值
- 分析语言
三种分析标记a- 选择源字段
- 从选择一个组件更改为另一个组件,[ANA](开始选择字段), [SEP](选择维度分组)
- 应用聚合操作 [Sum], [Count], [Average]
重点讨论仅使用一个度量值和仅使用聚合计算的基本分析。但当应用于具有多个度量值的分析和其他类型的计算运算符时,所提出的技术是通用的。
-
完整、部分和目标序列
完整序列 C D C_D CD,部分序列为 前缀 S D + S^+_D SD+\ C D C_D CD,目标序列 G D G_D GD(用户采用序列),部分目标 T D T_D TD= T D + T^+_D TD+ \ G D G_D GD -
示例
[ANA] [Sales] [SEP] [SalesRep] [SEP] [Region] [Sum]
2. 语言建模
表格分析作为一个集合到序列的框架,在学习阶段,它从大量(表格、分析)对中学习。在推荐阶段,它为给定的表生成top-k分析序列。问题关键在于建模,构建动作值(Q值)函数根据给定输入集和已生成前缀的当前状态对下一个动作分数进行建模。
语言建模任务:
- 完整分析:产生top k的完整分析序列推荐列表( s 1 − s 2 s_1-s_2 s1−s2),按照s(成为给定数据集D的常见分析的概率)排序。
- 下一步动作:给定部分序列s和下一个动作a,预测sa作为常见分析前缀的可能性 P(sa ∈ \in ∈ T D + T^+_D TD+ | s,D)。
2.2 存在挑战
挑战:
- open-vocabulary problem ,引用标记非离散,无法枚举,典型NLP场景中的传统技术无法解决。
- 成功指标不同,无法缓解误差,当出现较大误差时,应中断操作寻找新