作者:Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, and Matei Zaharia
翻译:殷之涵
校对:方星轩
本文约2800字,建议阅读8分钟
本文以作者第一人称的方式向读者介绍了在2020年8月底对非结构化数据进行具有统计保证的近似选择查询方面所开展的工作,包含查询语义及查询背后的具体算法——如何在实现统计保证的同时提升查询结果的质量。
这篇文章介绍了我们最近在对具有统计保证的近似选择查询方面所开展的工作。虽然此文章将是独立出来的,但还是欢迎参阅我们的其他博客文章,以了解其他相关工作进展和更多背景信息(第1部分)!
正如我们在第1部分中所述,随着强大的深度神经网络(DNN)和人工标记服务(我们统称为“Oracle方法”)的出现,我们可以越来越多地对非结构化数据记录(例如,视频、文本)进行自动化查询。以我们正在与斯坦福生物系研究人员的合作为例,他们已经收集了数百天的实地视频,想要发现蜂鸟的出现与实地微生物记录的匹配规律。
(图注:鸟(左)和空灌木(右)视频的绝大多数是空的(> 99%),因此出于科学目