独家 | 使用机器学习对非结构化数据加速查询-第2部分（具有统计保证的近似选择查询）...

数据派THU

于 2020-12-03 17:00:00 发布

阅读量355

点赞数

文章标签：算法人工智能 java 机器学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/110600665

版权

本文介绍了一种在非结构化数据上进行具有统计保证的近似选择查询的方法，特别是在机器学习和大数据背景下。通过使用代理模型和统计保证的算法，该方法旨在提高查询结果的精确性和召回率，同时确保在多次执行时达到预定的统计保证。文章探讨了查询语义、实现统计保证的挑战以及如何通过重要性采样提高查询质量。

摘要由CSDN通过智能技术生成

作者：Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, and Matei Zaharia

翻译：殷之涵

校对：方星轩

本文约2800字，建议阅读8分钟

本文以作者第一人称的方式向读者介绍了在2020年8月底对非结构化数据进行具有统计保证的近似选择查询方面所开展的工作，包含查询语义及查询背后的具体算法——如何在实现统计保证的同时提升查询结果的质量。

这篇文章介绍了我们最近在对具有统计保证的近似选择查询方面所开展的工作。虽然此文章将是独立出来的，但还是欢迎参阅我们的其他博客文章，以了解其他相关工作进展和更多背景信息（第1部分）！

正如我们在第1部分中所述，随着强大的深度神经网络（DNN）和人工标记服务（我们统称为“Oracle方法”）的出现，我们可以越来越多地对非结构化数据记录（例如，视频、文本）进行自动化查询。以我们正在与斯坦福生物系研究人员的合作为例，他们已经收集了数百天的实地视频，想要发现蜂鸟的出现与实地微生物记录的匹配规律。

（图注：鸟（左）和空灌木（右）视频的绝大多数是空的（> 99％），因此出于科学目

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。