
1. 概览

Brodtkorb et al. (2013) and Schulz et al. (2013) deals with routing problems.
Luong (2011b) considers Metaheuristics on GPU.
Alba et al. (2013) study parallel metaheuristics.

2. 精确解法

The Simplex Tableau:Lalami et al. (2011a,b)
The Two-Phase Simplex:Meyer et al. (2011)
The Revised Simplex:Ploskas and Samaras (2015),Nikolaos and Nikolaos (2013),Bieling et al. (2010),Spampinato and Elster (2009),Greeff (2005)
The Interior Point Method:Jung and O’Leary (2008)
The Exterior Point Method:Ploskas and Samaras (2015)

2.1 线性规划

Greeff (2005)使用GPU加速revised单纯形,声称可提速11.5倍。
单纯形法涉及很多矩阵操作,注入BLAS和MATLAB已经可以将矩阵求逆、矩阵相乘等运算使用GPU进行加速。Spampinato and Elster
(2009)声称对于2000个变量和2000个约束的问题,基于 ATLAS-based solver Whaley and Dongarra (1999),使用NVIDIA GeForce GTX 280 GPU,相比于 Intel Core 2 Quad 2.83GHz processor可以提速2.5倍。
Nikolaos and Nikolaos (2013) 基于MATLAB求解5000个变量和5000个约束的问题,使用NVIDIA Quadro 6000,比Intel Core i7 3.4GHz提速5.5倍。
Ploskas and Samaras Nikolaos and Nikolaos (2013) 研究了revised单纯形法的一般形式,提出了用于GPU求解的Product Form of the Inverse (PFI,基于Dantzig and Orchard-Hays (1954) ),以及Modification of the PFI (MPFI,基于Benhamadou (2002))。研究表明PFI略胜于MPFI。
Ploskas and Samaras (2015)实现了GPU版本的revised simplex和exterior point method。基于netlib benchmark,使用NVIDIA Quadro 6000,表明外点法明显优于单纯形法,稀疏矩阵可以提速20倍,稠密矩阵可以提速181倍。
Bieling et al. (2010)基于上文又做了一些优化,使用Goldfarb and Reid (1977)提出的steepest-edge heuristic选择进基和出基变量。作者对比了GLPK求解器,对于8000个变量和2700个约束的问题,NVIDIA GeForce 9600 GT GPU相比于Intel Core 2 Duo E8400 3.0 GHz processor提速了18倍。
Bieling et al. (2010)表明将数据组织成表结构更易于GPU发挥作用。Lalami et al. (2011a,b) and Meyer et al. (2011) 进行了实现,其中Lalami et al. (2011b) 基于Garfinkel and Nemhauser (1972)实现,采用了horizontal decomposition,将表的不同行拆分到不同的GPU上进行加速,通过CPU进行调度。求解 27,000个变量和27,000个约束的问题,使用Intel Xeon E5640 2.66GHz CPU以及两块NVIDIA C2050 GPUs,提速2.5倍。如果只使用一块GPU,提速12.5倍。
Meyer et al. (2011)提出了两阶段法的多GPU实现方法,使用了vertical decomposition,即将变量拆分到GPU上进行加速,减少不同GPU之间的通信。求解25,000个变量和5,000个约束的问题,在两个Intel Xeon X5570 2.93GHz和四个NVIDIA Tesla S1070机器上,比CLP solver要好。
Jung and O’Leary (2008)研究了混合精度的primal-dual interior point内点法,使用GPU计算Choleskey分解、forward and back substitution等,但是结果没有比CPU好。

2.2 动态规划

目前只有knapsack problem使用动态规划进行了求解。
Knapsack Problem:Boyer et al. (2011,2012)
Multi-Choice Knapsack Problem:Suri et al. (2012)
Boyer et al. (2011) ,数据被组织成表格的形式,列代表物品,行代表knapsack的容量。作者还提出了数据压缩方法,减少数据通信。测试机器为Intel Xeon 3.0 GHz,NVIDIA GTX 260 GPU,测试变量数量为100,000个,计算时间减少了26%,overhead的时间不超过总时间的3%。
Boyer et al. (2012)则给出了多GPU的解法, Intel Xeon 3 GHz处理器和Tesla S1070 GPU上,一个GPU能提速14倍,两个GPU能提速28倍。

2.3 分支定界法

Knapsack Problem:Boukedjar et al. (2012)
Flow-shop Scheduling Problem:Lalami and El Baz (2012)、Lalami (2012)、Chakroun and Melab (2012)
Traveling Salesman Problem:Chakroun et al. (2012, 2013)、Melab et al. (2012)、Carneiro et al. (2011)

knapsack问题的处理方式:首先用CPU生成树,当节点数目达到一定数值时,使用GPU并行进行处理,每一个节点用一颗GPU内核,bounds comparison和节点删除也在GPU上进行,每一步用cpu进行节点的合并。Intel Xeon E5640 2.66GHz processor 以及 NVIDIA C2050 GPU上,对于1000个变量的问题速度提升52倍。
flow shop问题中,99%的时间被用于bounds的比较,因此GPU主要用于提升bounds比较,其他步骤则在CPU上进行。Intel Xeon E5520 2.27GHz 、NVIDIA C2050系统上,Taillard (1993)的测试阿尼拉,最多提速77倍。 Chakroun and Melab (2012) 测试了多GPU的例子,在两块Tesla T10机器上,最多提速105倍。
Chakroun et al. (2013) 设计了CPU-GPU混合算法,将branching和pruning算子也设计在GPU上了。Intel Xeon E5520 2.27GHz、NVIDIA C2050机器上,使用Taillard (1993)例子,提速160倍。cooperative approach比concurrent one快36%。作者建议用GPU cores探索树结构,用CPU cores做数据准备和数据传输。

TSP问题:, Carneiro et al.(2011) 在Intel Core i5750 2.66GHz、NVIDIA GeForce GTS 450机器上,最多提速11倍。tsp问题的求解有很多启发式算法,GPU也主要用在这些启发式算法的加速上。

