独家 | 使用机器学习对非结构化数据加速查询-第2部分(具有统计保证的近似选择查询)...

本文介绍了一种在非结构化数据上进行具有统计保证的近似选择查询的方法,特别是在机器学习和大数据背景下。通过使用代理模型和统计保证的算法,该方法旨在提高查询结果的精确性和召回率,同时确保在多次执行时达到预定的统计保证。文章探讨了查询语义、实现统计保证的挑战以及如何通过重要性采样提高查询质量。
摘要由CSDN通过智能技术生成

作者:Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, and Matei Zaharia

翻译:殷之涵

校对:方星轩

本文约2800字,建议阅读8分钟

本文以作者第一人称的方式向读者介绍了在2020年8月底对非结构化数据进行具有统计保证的近似选择查询方面所开展的工作,包含查询语义及查询背后的具体算法——如何在实现统计保证的同时提升查询结果的质量。

这篇文章介绍了我们最近在对具有统计保证的近似选择查询方面所开展的工作。虽然此文章将是独立出来的,但还是欢迎参阅我们的其他博客文章,以了解其他相关工作进展和更多背景信息(第1部分)

正如我们在第1部分中所述,随着强大的深度神经网络(DNN)和人工标记服务(我们统称为“Oracle方法”)的出现,我们可以越来越多地对非结构化数据记录(例如,视频、文本)进行自动化查询。以我们正在与斯坦福生物系研究人员的合作为例,他们已经收集了数百天的实地视频,想要发现蜂鸟的出现与实地微生物记录的匹配规律。

(图注:鸟(左)和空灌木(右)视频的绝大多数是空的(> 99%),因此出于科学目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值