2023 sigspatial humob workshop
1 分析数据
- 在绘制事件时间戳的观察分布时,我们可以瞥见夜间和白天的时间(b和c)
- (c)后半部分所见的移动强度的急剧变化,提供了个体移动性减少的洞察
- ——>暗示了使用完整时间序列训练任务2模型可能是错误的
- 在预测期间,一些坐标(x, y)元组在训练期间从未出现过
- 图1的d面板显示了训练外位置x、y及其组合(x, y)的比率分布
- 将位置的x和y值独立对待时,我们发现约20%的x或y坐标在过去未见过
- 考虑精确的位置坐标(x, y),我们看到约40%的位置在预测期间被个体访问过,而在过去未被访问过
2 GeoFormer模型
- 论文将人类移动性重新构想为一个抽象序列,使用GPT机型预测
- 理论上,GPT架构模型了在给定过去序列[𝑥0, 𝑥1, 𝑥2, ..., 𝑥𝑗−1]的情况下,在位置𝑗生成令牌𝑥的条件概率。
- GPT架构在建模序列数据方面的无懈可击能力的证据比比皆是
- ——>将GeoFormer定义为一个GPT模型,学习下面定义的条件概率分布, 𝑥𝑖𝑗∼𝑃(𝑋∣𝑥𝑖1,𝑥𝑖2,...,𝑥𝑖𝑗−1)
- 其中𝑖对应于第𝑖个个体,𝑗对应于第𝑗个时间期,𝑥𝑖𝑗对应于时间𝑗的用户𝑖的坐标
2.1 输入线性化
- 利用一个完整的一天的数据被离散化为30分钟间隔的事实。这意味着一整天最多将有48个时间步。
- 尽管提供的数据中只有观察到的位置的时间步,我们仍然使用完整的48个时间步来表示个体的每日轨迹
- ——>为没有观察到的时间步分配一个特殊的“空”(N)令牌
- 将坐标严格表示为元组(x, y)是编码个体位置信息的精确方法。
- 然而,选择这种表示并不是最优的,因为坐标的x和y值有500个不同的单元格。要完全定义地理表达将需要250,000个独特的位置令牌
- 为了缓解令牌空间的“爆炸”,我们独立地表示个体的位置。
- 这意味着我们有500个x坐标的令牌和500个y坐标的令牌。
- 我们将这些令牌区分为x<pos_id>和y<pos_id>,分别表示x和y令牌
- 将训练数据表示为8天的移动性签名序列
- 由于模型是自回归的,这种8天的移动性签名将允许我们在有前7天输入的情况下生成第8天的轨迹
- 这个选择是因为在图1,b和c面板中显示的一周(7天)周期中观察到明显的季节性
- 然而,值得注意的是这种方法的一个重要局限性,即假设一周的移动信息足以模拟后续天的信息。
- 虽然没有为个体的轨迹提供超过一周的显式长期记忆,但线性化输入旨在在个体级别调节模型。
- 特别是,我们在表示形式前缀中加入了代表个体的用户ID令牌。学习算法假定通过用户ID令牌编码个体特定移动的一般长期特征。
- 这对于预测和生成训练数据之外的个体移动轨迹很有用。
2.2 模型配置
- 模型由12个变换器层组成,有24个注意力头,768个嵌入维度,以及10%的丢失率
- 使用的优化器是AdamW,beta值为(0.9, 0.999),epsilon等于1e-5
- 学习率调度器遵循余弦曲线,最大值为5e-4,并有20,000步的线性预热
- 设置了5的最大梯度规范化
2.3 生成预测
- 在GeoFormer的背景下进行预测类似于GPT在标准文本应用中执行的生成过程。这个过程是自回归的,意味着序列中的每个令牌都是一次生成一个令牌的,以前生成的令牌被用来生成下一个。通过适当的输入数据设计,可以进行条件生成。
- 推断签名。
- 为了帮助模型生成预测,我们利用要预测的数据中提供的签名。
- 数据已经指定了需要预测坐标的时间段。
- 因此,我们从数据中生成一个预期的输入模式,只需要模型填充所需时间的值。
- 附录A.3中显示的签名指示了模型需要填充的值为x,y,同时跳过由N表示的时间的预测。
- 限制候选令牌
- 选择将生成的候选令牌限制在已经是个体过去轨迹的一部分的那些令牌上
- 将令牌具体限制在星期几和特定时间戳上,前后各有2个时间戳的窗口
- 窗口用于考虑数据收集的随机性,这可能由于连接问题和其他因素将位置与邻近时间戳关联起来
- 这意味着,如果我们希望在星期六早上6点进行预测,我们只考虑个体在之前的星期六在早上5点、早上5点半、早上6点、早上6点半和早上7点访问过的所有x和y位置。
- 通过限制候选令牌,可以减轻模型在生成位置时产生与个体可能轨迹过于偏离的幻觉