数据结构和算法——用C语言实现所有排序算法

亻乍屯页女子白勺

已于 2023-12-10 01:38:58 修改

阅读量756

点赞数 1

分类专栏：数据结构与算法文章标签：算法数据结构 c语言排序算法外部排序

于 2023-10-27 23:21:38 首次发布

本文链接：https://blog.csdn.net/qq_45295475/article/details/129909391

版权

数据结构与算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前言

本文所有代码均在仓库中，这是一个完整的由纯C语言实现的可以存储任意类型元素的数据结构的工程项目。

在这里插入图片描述

首先是极好的工程意识，该项目是一个中大型的CMake项目，结构目录清晰，通过这个项目可以遇见许多工程问题并且可以培养自己的工程意识。
其次是优秀的封装性（每个数据结构的头文件中只暴漏少量的信息），以及优秀的代码风格和全面的注释，通过这个项目可以提升自己的封装技巧：

在这里插入图片描述

异常处理功能：在使用C语言编写代码的时候不能使用类似Java的异常处理机制是非常难受的，所以我也简单实现了一下。详情可看在C语言中实现类似面向对象语言的异常处理机制

在这里插入图片描述

最后也是最重要的一点，数据结构的通用性和舒适的体验感，下面以平衡二叉树为例：

第一步：要想使用平衡二叉树，只需要引入其的头文件：

#include "tree-structure/balanced-binary-tree/BalancedBinaryTree.h"

第二步：定义自己任意类型的数据，并构造插入数据（以一个自定义的结构体为例）：

#include "tree-structure/balanced-binary-tree/BalancedBinaryTree.h"

int dataCompare(void *, void *);

typedef struct People {
    char *name;
    int age;
} *People;

int main(int argc, char **argv) {
    struct People dataList[] = {
            {"张三", 15},
            {"李四", 3},
            {"王五", 7},
            {"赵六", 10},
            {"田七", 9},
            {"周八", 8},
    };
    BalancedBinaryTree tree = balancedBinaryTreeConstructor(NULL, 0, dataCompare);
    for (int i = 0; i < 6; ++i) {
        balancedBinaryTreeInsert(&tree, dataList + i, dataCompare);
    }
    return 0;
}

/**
 * 根据人的年龄比较
 */
int dataCompare(void *data1, void *data2) {
    int sub = ((People) data1)->age - ((People) data2)->age;
    if (sub > 0) {
        return 1;
    } else if (sub < 0) {
        return -1;
    } else {
        return 0;
    }
}

第三步：打印一下平衡二叉树：

#include "tree-structure/balanced-binary-tree/BalancedBinaryTree.h"

int dataCompare(void *, void *);

void dataPrint(void *);

typedef struct People {
    char *name;
    int age;
} *People;

int main(int argc, char **argv) {
    struct People dataList[] = {
            {"张三", 15},
            {"李四", 3},
            {"王五", 7},
            {"赵六", 10},
            {"田七", 9},
            {"周八", 8},
    };
    BalancedBinaryTree tree = balancedBinaryTreeConstructor(NULL, 0, dataCompare);
    for (int i = 0; i < 6; ++i) {
        balancedBinaryTreeInsert(&tree, dataList + i, dataCompare);
        balancedBinaryTreePrint(tree, dataPrint);
        printf("-------------\n");
    }
    return 0;
}

/**
 * 根据人的年龄比较
 */
int dataCompare(void *data1, void *data2) {
    int sub = ((People) data1)->age - ((People) data2)->age;
    if (sub > 0) {
        return 1;
    } else if (sub < 0) {
        return -1;
    } else {
        return 0;
    }
}

/**
 * 打印人的年龄
 * @param data
 */
void dataPrint(void *data) {
    People people = (People) data;
    printf("%d", people->age);
}

打印的结果如下：

在这里插入图片描述
最后期待大佬们的点赞。

一些约定

本文代码干练简洁、辅助变量命名明确，且均已上机运行通过
待排列表下标从一开始
待排元素可为任意类型，需传入int compare (void * a, void * b)函数用于待排元素的比较：
- $a > b$ 则返回值大于零
- $a = b$ 则返回值等于零
- $a < b$ 则返回值小于零
外部排序模拟代码会在近期补上

排序算法的基本概念

排序算法就是将结构中所有数据按照关键字有序的过程。排序的分类如下：

在这里插入图片描述

评价一个排序算法的指标通常有以下三种：

时间复杂度
空间复杂度
稳定性

其中稳定性是指关键字相同的元素在排序前后相对位置是否改变，如果不变则称该排序算法是稳定的，否则就是不稳定的。

内部排序

插入排序

算法思想：每次将一个待排序的记录按其关键字大小插入前面已排好序的子序列，直到全部记录插入完成。

直接插入排序

算法思想：每次将一个待排序的记录按其关键字大小插入前面已排好序的子序列，直到全部记录插入完成。
时间复杂度： $O(n)\thicksim O(n²)$
空间复杂度： $O (1)$
稳定性：稳定

/**
 * 直接插入排序
 * @param dataList
 * @param length
 */
void directInsert(void *dataList[], int length, int (*compare)(void *, void *)) {
    for (int unOrderListIterator = 2; unOrderListIterator <= length; ++unOrderListIterator) {
        void *sortedData = dataList[unOrderListIterator - 1];
        int orderListIterator;
        for (orderListIterator = unOrderListIterator - 1; orderListIterator >= 1 && compare(sortedData, dataList[orderListIterator - 1]) < 0; --orderListIterator) {
            dataList[orderListIterator + 1 - 1] = dataList[orderListIterator - 1];
        }
        dataList[orderListIterator + 1 - 1] = sortedData;
    }
}

折半插入排序

算法思想：在直接插入排序的基础上，用二分查找待排元素的位置。
时间复杂度： $O(nlog₂n)\thicksim O(n²)$
空间复杂度： $O (1)$
稳定性：稳定

/**
 * 折半插入排序
 * @param dataList
 * @param length
 */
void binaryInsertSort(void *dataList[], int length, int (*compare)(void *, void *)) {
    for (int unOrderListIterator = 2; unOrderListIterator <= length; ++unOrderListIterator) {
        void *sortedData = dataList[unOrderListIterator - 1];
        int mid, high = unOrderListIterator - 1, low = 1;
        while (low <= high) {
            mid = (high + low) / 2;
            if (compare(dataList[mid - 1], sortedData) > 0) {
                high = mid - 1;
            } else {
                low = mid + 1;
            }
        }
        for (int orderListIterator = unOrderListIterator; orderListIterator > low; orderListIterator--) {
            dataList[orderListIterator - 1] = dataList[orderListIterator - 1 - 1];
        }
        dataList[low - 1] = sortedData;
    }
}

希尔排序

算法思想：先将待排序列表分割成若干形如 $L[i,i+d,i+2d,\dots,i+kd]$ 的子表，然后对各个子表分别进行直接插入排序，之后缩小增量 $d$ ，重复上述过程，直到 $d = 1$ 。
时间复杂度：无法用数学方法准确表示，当 $n$ 在某一范围内时间复杂度为 $O(n^{1.3})$ ，最坏的时间复杂度为 $O (n^{2})$
空间复杂度： $O (1)$
稳定性：不稳定

/**
 * 希尔排序
 * @param dataList
 * @param length
 * @param compare
 */
void shellSort(void *dataList[], int length, int (*compare)(void *, void *)) {
    for (int p = length / 2; p >= 1; p /= 2) {
        for (int unOrderListIterator = p + 1; unOrderListIterator <= length; ++unOrderListIterator) {
            void *sortedData = dataList[unOrderListIterator - 1];
            int orderListIterator;
            for (orderListIterator = unOrderListIterator - p; orderListIterator >= 1 && compare(sortedData, dataList[orderListIterator - 1]) < 0; orderListIterator -= p) {
                dataList[orderListIterator + p - 1] = dataList[orderListIterator - 1];
            }
            dataList[orderListIterator + p - 1] = sortedData;
        }
    }
}

交换排序

算法思想：根据序列中两个元素关键字的比较结果来对换这两个元素在序列中的位置。

冒泡排序

算法思想：从前往后两两比较相邻两元素的关键字，若为逆序则交换它们，直到序列比较完成，此时最小的元素将被交换到第一个位置，这就是一趟冒泡。只要经过 $n - 1$ 趟冒泡，待排序列就有序了。
时间复杂度： $O(n)\thicksim O(n²)$
空间复杂度： $O (1)$
稳定性：稳定

/**
 * 冒泡排序
 * @param dataList
 * @param length
 * @param compare
 */
void bubbleSort(void *dataList[], int length, int (*compare)(void *, void *)) {
    for (int trip = 1; trip <= length - 1; trip++) {
        bool isSwap = false;
        for (int j = length; j > trip; j--) {
            if (compare(dataList[j - 1], dataList[j - 1 - 1]) < 0) {
                swap(dataList + j - 1, dataList + j - 1 - 1);
                isSwap = true;
            }
        }
        //如果没有交换则序列已有序
        if (!isSwap) {
            break;
        }
    }
}

快速排序

快速排序算法的平均时间复杂度接近最好时间复杂度的排序算法，是最好的内部排序。

算法思想：在待排序列中选择一个元素 $p i v o t$ 作为基准，通过一趟排序将序列划分为两部分 $L[1,\dots,k-1]$ 和 $L[k+1,\dots,n]$ ，使得 $L[1,\dots,k-1]$ 中所有元素小于 $p i v o t$ ， $L[k+1,\dots,n]$ 中所有元素大于等于 $p i v o t$ 。 $p i o v t$ 则放在了其最终的位置 $L [k]$ 上，这个过程为一趟快速排序。然后分别递归的对两个部分重复上述过程，直到每部分只有一个元素或空为止。
时间复杂度： $O(nlog₂n)\thicksim O(n²)$ ，具体为 $O(n\times 递归层数)$
空间复杂度： $O(log₂n)\thicksim O(n)$ ，具体为 $O (递归层数)$
稳定性：不稳定

static int partition(void *dataList[], int low, int high, int (*compare)(void *, void *)) {
    void *pivot = dataList[low - 1];
    while (low < high) {
        while (low < high && compare(dataList[high - 1], pivot) > 0) {
            high--;
        }
        dataList[low - 1] = dataList[high - 1];
        while (low < high && compare(dataList[low - 1], pivot) <= 0) {
            low++;
        }
        dataList[high - 1] = dataList[low - 1];
    }
    dataList[low - 1] = pivot;
    return low;
}

/**
 * 快速排序
 * @param dataList 
 * @param low 
 * @param high 
 * @param compare 
 */
void quickSort(void *dataList[], int low, int high, int (*compare)(void *, void *)) {
    if (low < high) {
        int pivotPos = partition(dataList, low, high, compare);
        quickSort(dataList, low, pivotPos - 1, compare);
        quickSort(dataList, pivotPos + 1, high, compare);
    }
}

选择排序

算法思想：每一趟在待排序序列中选择关键字最小或最大的元素加入有序子序列。

简单选择排序

算法思想：第 $i$ 趟从 $L (i ... n)$ 中选择关键字最小的元素与 $L (i)$ 交换，每一趟排序都可以确定一个元素的最终位置。
时间复杂度： $O (n^{2})$
空间复杂度： $O (1)$
稳定性：不稳定

/**
 * 简单选择排序
 * @param dataList 
 * @param length 
 * @param compare 
 */
void simpleSelectSort(void *dataList[], int length, int (*compare)(void *, void *)) {
    for (int orderListIterator = 1; orderListIterator < length; ++orderListIterator) {
        int minIndex = orderListIterator;
        for (int unOrderListIterator = orderListIterator + 1; unOrderListIterator <= length; ++unOrderListIterator) {
            if (compare(dataList[unOrderListIterator - 1], dataList[minIndex - 1]) < 0) {
                minIndex = unOrderListIterator;
            }
        }
        if (minIndex != orderListIterator) {
            swap(dataList + orderListIterator - 1, dataList + minIndex - 1);
        }
    }
}

堆排序

当一个序列 $L[1,\dots,n]$ 满足：

$L (i) >= L (2 i)$ 且 $L (i) >= L (2 i + 1)$ 时，称该序列为大顶堆
$L (i) <= L (2 i)$ 且 $L (i) <= L (2 i + 1)$ 时，称该序列为小顶堆

可以将堆看成一棵线性存储的完全二叉树：

大顶堆的最大元素存放在根结点，且其任一非根结点的值小于等于其双亲结点的值。
小顶堆的最小元素存放在根结点，且其任一非根结点的值大于等于其双亲结点的值。
在完全二叉树中：
- 若 $i <= ⌊ n /2 ⌋$ ，那么结点 $i$ 为分支结点，否则为叶子结点。
- $i$ 的左孩子 $2 i$
- $i$ 的右孩子 $2 i + 1$
- $i$ 的父结点 $⌊ i /2 ⌋$

堆排序首要任务就是先构建一个堆（以大顶堆为例）：

检查所有分支结点的关键字是否满足大顶堆的性质，如果不满足，则用最大孩子的关键字和分支结点的关键字交换，使该分支子树成为大顶堆。之后依次对 $⌊n/2⌋-1\thicksim1$ 位置的分支结点重复以上检查。
若关键字交换破坏了下一级的堆，则采用相同的方式继续往下调整。

堆构建完后就可以进行堆排序了，堆排序的算法思想如下：

每一趟将堆顶元素加入有序子序列（与待排序列中的最后一个元素交换），并将待排元素序列再次调整为大顶堆。
时间复杂度：
- 建立堆时： $O (n)$
- 排序时： $O(nlog_2n)$
- 整体： $O (n l o g_{2} n)$
空间复杂度： $O (1)$
稳定性：不稳定

如果要在堆中插入或删除元素（以小顶堆为例），那么思想为：

插入元素时，首先将新元素放到堆尾，然后与父结点对比，若新元素比父结点更小，则将两者互换，一直重复此步骤直至新元素无法上升。
删除元素时，首先用堆底元素代替被删除的元素，然后让该元素不断的下坠，直到无法下坠为止。

static void heapAdjust(void **dataList, int rootIndex, int length, int (*compare)(void *, void *)) {
    void *root = dataList[rootIndex - 1];
    //i指向左孩子
    for (int i = 2 * rootIndex; i <= length; i *= 2) {
        //如果右孩子>左孩子，则让i指向右孩子
        if (i < length && compare(dataList[i + 1 - 1], dataList[i - 1]) > 0) {
            i++;
        }
        if (compare(root, dataList[i - 1]) > 0) {
            break;
        } else {
            dataList[rootIndex - 1] = dataList[i - 1];
            //调整完当前子树后接着向下调整，以免上一次的交换破坏了下一级的堆
            rootIndex = i;
        }
    }
    dataList[rootIndex - 1] = root;
}

static void maxHeapBuild(void **dataList, int length, int (*compare)(void *, void *)) {
    for (int i = length / 2; i >= 1; i--) {
        int a = *((int *) dataList[i - 1]);
        heapAdjust(dataList, i, length, compare);
    }
}

/**
 * 堆排序
 * @param dataList
 * @param length
 * @param compare
 */
void heapSort(void **dataList, int length, int (*compare)(void *, void *)) {
    maxHeapBuild(dataList, length, compare);
    for (int i = length; i > 1; i--) {
        swap(dataList + i - 1, dataList + 1 - 1);
        heapAdjust(dataList, 1, i - 1, compare);
    }
}

归并排序

算法思想：将待排序列视为 $n$ 个有序的子序列，然后两两（或两个以上）归并，得到 $⌈ n /2 ⌉$ 个长度为 $2$ 或为 $1$ 的有序序列，然后继续归并，直到合成一个长度为 $n$ 的有序序列为止。
时间复杂度： $O (n l o g_{2} n)$
空间复杂度： $O (n)$
稳定性：稳定

static void merge(void *dataList[], int length, int low, int mid, int high, int (*compare)(void *, void *)) {
    void *temp[length];
    int i, j, k;
    for (k = low; k <= high; ++k) {
        temp[k-1] = dataList[k-1];
    }
    for (i = low, j = mid + 1, k = low; i <= mid && j <= high; k++) {
        if (compare(temp[i - 1], temp[j - 1]) < 0) {
            dataList[k - 1] = temp[i - 1];
            i++;
        } else {
            dataList[k - 1] = temp[j - 1];
            j++;
        }
    }
    while (i <= mid) {
        dataList[k - 1] = temp[i - 1];
        k++;
        i++;
    }
    for (; j <= high;) {
        dataList[k - 1] = temp[j - 1];
        k++;
        j++;
    }
}

/**
 * 归并排序
 * @param dataList
 * @param length
 * @param low
 * @param high
 * @param compare
 */
void mergeSort(void *dataList[], int length, int low, int high, int (*compare)(void *, void *)) {
    if (low < high) {
        int mid = (low + high) / 2;
        mergeSort(dataList, length, low, mid, compare);
        mergeSort(dataList, length, mid + 1, high, compare);
        merge(dataList, length, low, mid, high, compare);
    }
}

基数排序

假设长度为 $n$ 的排序列表中每个结点 $a_j$ 的关键字由 $d$ 元组 $(k_j^{d-1},k_j^{d-2},\dots,k_j^1,k_j^0)$ 组成，其中 $0\leq k_j^i\leq r-1,(0\leq j<n,0\leq i\leq d-1)$ ， $r$ 称为基数。那么基数排序的算法思想为：

初始化：设置 $r$ 个空队列， $Q_0,Q_1,\dots,Q_{r-1}$
按照各个关键字位权重递增的次数对 $d$ 个关键字位分别进行分配和收集
- 分配：顺序扫描各个元素，若当前处理的关键字位 $= x$ ，则将元素插入 $Q_x$ 队尾
- 收集：把 $Q_0,Q_1,\dots,Q_{r-1}$ 各个队列中的结点依次出队链接
时间复杂度： $O (d (n + r))$
空间复杂度： $O (r)$
稳定性：稳定

以int dataList[] = {278, 109, 63, 930, 589, 184, 505, 269, 8, 83}为例：

/**
 * 基数排序
 * @param dataList
 * @param length
 * @param maxLength
 */
void radixSort(int dataList[], int length, int maxLength) {
    LinkedQueue queue = linkedQueueConstructor();
    for (int i = 0; i < length; ++i) {
        linkedQueueEnQueue(queue, dataList + i);
    }
    LinkedQueue queue0 = linkedQueueConstructor();
    LinkedQueue queue1 = linkedQueueConstructor();
    LinkedQueue queue2 = linkedQueueConstructor();
    LinkedQueue queue3 = linkedQueueConstructor();
    LinkedQueue queue4 = linkedQueueConstructor();
    LinkedQueue queue5 = linkedQueueConstructor();
    LinkedQueue queue6 = linkedQueueConstructor();
    LinkedQueue queue7 = linkedQueueConstructor();
    LinkedQueue queue8 = linkedQueueConstructor();
    LinkedQueue queue9 = linkedQueueConstructor();
    LinkedQueue queueList[] = {queue0, queue1, queue2, queue3, queue4, queue5, queue6, queue7, queue8, queue9};
    for (int i = 1; i <= maxLength; ++i) {
        while (!linkedQueueIsEmpty(queue)) {
            void *data = linkedQueueDeQueue(queue);
            int key = *(int *) data / (int) pow(10, i - 1) % 10;
            linkedQueueEnQueue(queueList[key], data);
        }
        for (int j = 0; j < 10; ++j) {
            LinkedQueue keyQueue = queueList[j];
            while (!linkedQueueIsEmpty(keyQueue)) {
                linkedQueueEnQueue(queue, linkedQueueDeQueue(keyQueue));
            }
        }
    }
    while (!linkedQueueIsEmpty(queue)) {
        void *data = linkedQueueDeQueue(queue);
        printf("%d,", *(int *) data);
    }
}

在这里插入图片描述

外部排序

多路归并

操作系统以块为单位对磁盘存储空间进行管理，如果要修改磁盘块中的数据，就需要把对应磁盘块的内容读到内存中，在内存中修改后再写回磁盘。在对磁盘数据进行排序时，如果磁盘中的数据过多，那么无法一次将数据全部读到内存中，此时就应该使用外部排序。实现外部排序的思想是使用归并排序的的方法，最少只需要在内存中分配三块大小的缓冲区即可对任意一个大文件进行排序。

在这里插入图片描述
外部排序的步骤如下：

构造归并段：每次将磁盘中两个块的内容读入输入缓冲区中，进行内部排序写到输出缓冲区，当某个输入缓冲区为空时就立即读入磁盘中的下一个段，当输出缓冲区已满时就写入到磁盘中。16个块都排序完后就构造了8个两块长度的初始归并段。
接着继续构造4个4块长度的归并段。
以此类推当只有一个归并段时整个磁盘就变得有序了。

在每次构造归并段时都需要把所有的磁盘块读写一遍，并且还要进行内部排序，因此外部排序的时间开销由以下几部分构成：
$外部排序的时间开销 = 读写外存的时间 + 内部排序所需时间 + 内部归并所需的时间$
其中读写外存的时间是外部排序的主要开销，因此可以使用多路归并的方式来减少归并的趟数从而减少读写外存的次数。若对 $r$ 个初始归并段做 $k$ 路归并，则归并树可用 $k$ 叉树表示，若树高为 $h$ ，则归并趟数 $n$ 为：
$n=h-1=⌈log_kr⌉$
因此归并路数（增加缓冲区的个数）越多，初始归并段（增加缓冲区的长度）越少，读写磁盘的次数就越少。但多路归并同样存在着问题：