希尔排序通过将比较的全部元素分为几个区域来提升插入排序的性能。这样可以让一个元素可以一次性地朝最终位置前进一大步。然后算法再取越来越小的步长进行排序,算法的最后一步就是普通的插入排序,但是到了这步,需排序的数据几乎是已排好的了(此时插入排序较快)。
假设有一个很小的数据在一个已按升序排好序的数组的末端。如果用复杂度为O(n2)的排序(冒泡排序或插入排序),可能会进行n次的比较和交换才能将该数据移至正确位置。而希尔排序会用较大的步长移动数据,所以小数据只需进行少数比较和交换即可到正确位置。
一个更好理解的希尔排序实现:将数组列在一个表中并对列排序(用插入排序)。重复这过程,不过每次用更长的列来进行。最后整个表就只有一列了。将数组转换至表是为了更好地理解这算法,算法本身仅仅对原数组进行排序(通过增加索引的步长,例如是用i
例如,假设有这样一组数[
13
25
45
10
然后我们对每列进行排序:
10
13
25
45
当我们以单行来读取数据时我们得到:[
10
25
27
39
94
45
排序之后变为:
10
25
27
39
45
94
最后以1步长进行排序(此时就是简单的插入排序了)。
void shell_sort(int a[],int len)
{
int d = len/2;
while (d>=1)
{
for (int i=d;i<len;i++)
{
int temp = a[i];
int j=i-d;
while (j>=0 && a[j]>temp)
{
a[j+d]=a[j];
j=j-d;
}
a[j+d]=temp;
}
d = d/2;
}
}
int main(int argc, char* argv[])
{
int a[]={2,3,4,9,1,5,6,0,7,8};
shell_sort(a,sizeof(a)/sizeof(int));
return 0;
}
算法复杂度
1、时间复杂度
希尔排序耗时的操作有:比较 + 后移赋值。时间复杂度如下:
1) 最好情况:序列是升序排列,在这种情况下,需要进行的比较操作需(n-1)次。后移赋值操作为0次。即O(n)
2) 最坏情况:O(nlog2n)。
3) 渐进时间复杂度(平均时间复杂度):O(nlog2n)
平均时间复杂度:O(nlog2n),希尔排序在最坏的情况下和平均情况下执行效率相差不是很多, 与此同时快速排序(O(log2n))在最坏的情况下执行的效率会非常差。专家们提倡,几乎任何排序工作在开始时都可以用希尔排序,若在实际使用中证明它不够快,再改成快速排序这样更高级的排序算法。
增量序列的选择
Shell排序的执行时间依赖于增量序列。
1) 最后一个增量必须为1;
2) 应该尽量避免序列中的值(尤其是相邻的值)互为倍数的情况。
Shell排序的时间性能优于直接插入排序
1)当文件初态基本有序时直接插入排序所需的比较和移动次数均较少。
2)当n值较小时,n和的差别也较小,即直接插入排序的最好时间复杂度O(n)和最坏时间复杂度0()差别不大。
3)在希尔排序开始时增量较大,分组较多,每组的记录数目少,故各组内直接插入较快,后来增量di逐渐缩小,分组数逐渐减少,而各组的记录数目逐渐增多,但由于已经按di-1作为距离排过序,使文件较接近于有序状态,所以新的一趟排序过程也较快。
2、空间复杂度:O(1)
希尔排序是在原输入数组上进行后移赋值操作的(称“就地排序”),所需开辟的辅助空间跟输入数组规模无关,所以空间复杂度为:O(1)
稳定性
由于多次插入排序,我们知道一次插入排序是稳定的,不会改变相同元素的相对顺序,但在不同的插入排序过程中,相同的元素可能在各自的插入排序中移动,最后其稳定性就会被打乱,所以shell排序是不稳定的。