和这个问题有点相似的是欧拉回路(下图)问题,它不是要求把每个点都走一遍,而是要求把每个边都不重复走一遍(点可以重复),当然欧拉回路不是本算法研究的范畴。
1、TSP问题:要求每个点都遍历到,而且要求每个点只被遍历一次,并且总路程最短。
2、最短路径问题:要求从城市1到城市8找一条最短路径。
3、遍历m个点,要求找出其距离最短的路线。(如果m=N总数,其实就是问题1了,所以问题1可以看成是问题3的特例)。
遗传算法的理论是根据达尔文进化论而设计出来的算法:人类是朝着好的方向(最优解)进化,进化过程中会自动选择优良基因、淘汰劣等基因。
在上面TSP问题中,一个城市节点可以看成是一个基因,一个最优解就是一条路径(包含若干个点)。类似一条染色体有若干基因组成一样。所以求最短路径问题可以抽象成求最优染色体的问题。
遗传算法很简单,没有什么分支判断,只有两个大循环,流程大概如下:
流程中有几个关键元素:
1、适度值评估函数。这个函数是算法的关键,就是对这个繁衍出来的后代进行评估。用这个函数进行量化。在TSP中路径越短,分数越高。函数可以这样fitness = 1/total_distance.或者fitness = MAX_DISTANCE – total_distance.不同的计算方法会影响算法的收敛速度,直接影响结果和性能。
2、选择运算规则:又称选择算子。对应着达尔文理论中适者生存,意思就是只有优秀的人才有更大的几率存活下来,拥有交配权,有权利拥有更多后代,传承下自己血脉基因。选择方法比较多。最常见的是round robin selection算法,即轮盘赌算法,这个算法比较简单有效。选择算法目前已有10来种之多。各种不同业务可以按需选择。
3、交叉运算规则:又称交配规则,交叉算子。对应遗传学中的精子和卵子产生的受精卵含有精子的部分基因,也含有卵子的部分基因的现象。就像孩子有点像父亲,又有点像母亲的规律。交叉运算算法更多。最常见的是k-opt交换。其中k可以是1,2,3…。简称单点交换,两点交换,3点交换等等:
单点交换
从计算机算法角度看:所有的启发式算法无外乎两种手段结合:局域搜索和全域搜索。局域搜索是在邻域范围内找出最优解。对应的是选择算子和交叉算子在内部找最优秀的。如果只有局域搜索的话,就容易陷入局域最优解。算法结果肯定是要找出全域最优解,这就要求跳出局域搜索。我们称之为“创新”。创新就是一次打破常规的突破——就是“变异”。
这里拿最短路径路径举例子,求点1到点8之间的最短路径, 初始解是1——2——3——6——8
外变异:外变异是引入创新,突破传统的质的飞跃,也是启发算法中所谓的全域搜索。下面是在当前基因中引入外部基因(当前集合的补集)。