摘要:基于样本的优化研究的是如何通过用于学习目标函数的样本数据直接优化目标函数。首先介绍这一问题的数学模型——样本优化模型,以及这个模型下的不可近似性结果;然后介绍若干方法和样本优化模型的变种,以绕过这个模型下的不可近似性结果,使得优化成为可能;接着着重介绍其中一个变种——结构化样本优化模型,并详细阐述该模型下的最大覆盖问题和影响力最大化问题的优化算法;最后总结全文,并展望这一问题的未来研究方向。
关键词:基于样本的优化 ; 数据驱动的优化 ; 结构化样本 ; 最大覆盖问题 ; 影响力最大化问题
1 引言
为了解决实际生活中遇到的统筹优化问题,人们通常要建立一个问题模型,并确定模型的参数和优化目标函数,然后设计算法进行求解。然而,在大数据时代,许多应用场景无法提供足够的信息来确定模型参数和目标函数。人们只能通过观察到的历史样本数据来获取模型的信息,并进行优化。在这类场景下,人们通常使用机器学习的方法进行处理:首先近似地学习一个替代的目标函数,然后优化这个替代的函数。尽管这个方法在实际应用中获得了巨大的成功,但是在很多实际问题中,这个方法缺乏理论上的保证。事实上,它可能存在如下两个问题:① 即使针对原函数的优化问题是可求解或者可近似求解的,但是针对替代函数的优化问题也可能是不可近似的,这是因为替代函数可能丢失了一些原函数所具有的良好性质(如次模性);② 即使替代函数是可近似的,而且从整体上看和原函数很接近,但是它的最优解相较于原函数的最优解也可能是一个很差的近似。这些担忧自然地引出了