非凸优化1:非凸优化及其研究背景

非凸优化1:非凸优化及其研究背景

随着数据量的不断增大,硬件设备处理能力不断提升,现实场景需求不断增多,各领域的学习算法处理数据的维度也在不断的增大。例如,电子商务普及,推荐系统算法需要向数以亿计的用户推荐数千万的产品;各种视觉识别任务,需要处理的视觉特征也呈现出较高的维度;在生物信息学中,蛋白质预测、基因检测等,所有这些都呈现出类似的高维数据。处理此类高维数据的一种方法是从数据估计的角度出发,对问题施加一定的结构性约束条件,这种结构性约束常常是非凸的。同时,学习任务的目标函数也往往是非凸函数。例如,深度神经网络和张量分解问题。

非凸目标函数和约束条件能够更加准确地对问题进行建模,但是此类问题的求解通常给算法设计人员带来巨大挑战。与凸优化问题不同,非凸优化问题很难解决,该类问题是NP难问题,并且求解近似问题也是NP难问题。下面给出非凸优化的一般形式和一些示例。
优化问题的一般形式如下所示:
m i n x ∈ R p ⁡ f ( x ) , s . t . x ∈ C min_{x \in R^p}⁡f(x), s.t.x\in C minxRpf(x),s.t.xC

其中 x x x是问题的变量, C ⊂ R p C\subset R^p CRp是约束集合, f : R p → R f:R^p \rightarrow R f:RpR是目标函数。

如果目标函数是一个凸函数,并且约束集合也是一个凸集,则称该优化问题是凸优化问题。如果具有非凸目标函数或具有非凸约束集,或同时具有这两个非凸条件的优化问题,称为非凸优化问题。在机器学习中使用时,算法研究人员通过设计目标函数对问题的行为和预期结果进行建模,例如针对具体问题设计相应的损失函数去拟合训练数据;通过添加约束条件对模型进行限制,例如,对训练参数和对模型大小进行限制,预防过拟合现象,增强模型的泛化能力。在现实问题中时常遇到下面几个非凸优化问题的领域。

稀疏回归:线性回归是学习一个线性模型去响应变量对预测结果的影响。 例如,根据家庭成员的教育程度,其年薪和其他相关指标来预测一个家庭的平均支出,揭示受教育水平如何影响支出,进一步支持经济政策决策。同时每一个家庭都具有很多特征,例如,受教育程度、年薪、家庭人口规模、是够有未成年子女、眼睛的颜色、房屋编号的奇偶性等。可以发现在这些特征中,有一些特征对研究目标问题的结果关联性较弱,如果将这些维度的特征也加入到模型中去将会影响模型的预测效果。此时对问题添加一个约束限制最终影响模型变量的个数将会取得更好的预测结果。下面给出稀疏回归的最小二乘形式:

w ^ s p = a r g ⁡ m i n w ∈ R p ⁡ ∑ i = 1 n ( y i − x i T w ) 2 ) , s . t . x ∈ B 0 ( s ) \hat{w}_{sp}=arg⁡min_{w \in R^p}⁡∑_{i=1}^n (y_i-x_i^T w)^2 ) ,s.t.x \in B_0 (s) w^sp=argminwRpi=1n(yixiTw)2),s.t.xB0(s)

此问题目标函数是凸函数,但是约束条件是非凸的,解决稀疏回归问题是NP难问题。

推荐系统:互联网搜索引擎、电子商务网站、娱乐服务网站等利用推荐系统向用户提供内容服务和产品列表。在提供服务的同时,这些平台通常提供产品反馈渠道,以期望获得用户准确的建议,为用户提供更优质的服务,例如用户可以对歌曲电影进行评分。然而,在庞大的产品库中,例如歌曲往往数以百万计,而每个用户仅对其中少数的几首进行评分,这就需要有效利用这些用户反馈信息,找出其中的潜在因素拓展到其他产品中去,为用户推荐更多喜欢的内容。

矩阵分解是一种有效的处理机制:对于 m m m 个用户, n n n 个产品,可以得到一个 m × n m\times n m×n 维的矩阵 A A A,元素 A i j A_{ij} Aij 代表用户 i i i 对产品 j j j 的喜好程度。矩阵中,每个用户只对少量产品进行了明确的喜好程度评分,此时希望预测出其余的产品偏好程度,即补全此矩阵。常规做法是求解一个低秩矩阵来近似原始的稀疏矩阵。此问题与推荐系统中流行的协作过滤技术紧密相关,问题可以形式化描述如下:
A ^ l r = a r g ⁡ m i n X ∈ R m × n ⁡ ∑ ( i , j ) ∈ Ω ( X i j − A i j 2 ) ¦ s . t . r a n k ( X ) ≤ r \hat{A}_{lr}=arg⁡min_{X∈R^{m×n}}⁡∑_{(i,j)\in \Omega}(X_{ij}-A_{ij}^2)¦s.t.rank(X) \leq r A^lr=argminXRm×n(i,j)Ω(XijAij2)¦s.t.rank(X)r

上述问题也具有凸目标函数,但受到非凸秩约束,也可以证明是NP难的。针对此问题,可以通过间接施加低秩约束来得出另一种表述。假设评级矩阵的秩最高为r等于假设矩阵 A A A 可以写成 A = U V T A=UV^T A=UVT,此时:

A ^ l r = a r g ⁡ m i n U ∈ R m × r , V ∈ R n × r ⁡ ∑ ( i , j ) ∈ Ω ( U i T V j − A i j ) 2 \hat{A}_{lr}=arg⁡min_{U\in R^{m×r},V \in R^{n×r}}⁡∑_{(i,j)\in \Omega}(U_i^T V_j-A_{ij} )^2 A^lr=argminURm×r,VRn×r(i,j)Ω(UiTVjAij)2
上面的两个示例,展示了非凸优化在建模中和实际问题处理中的效用。但是,很多非凸问题都是很难精确求解的NP难问题。在下一篇博客的讨论中,将简要介绍一些用于解决此类非凸优化问题的方法。

Jain P, Kar P. Non-convex optimization for machine learning[J]. Foundations and Trends® in Machine Learning, 2017, 10(3-4): 142-336.
Boyd S, Vandenberghe L. Convex optimization[M]. Cambridge university press, 2004.

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值