你真的精精通排序算法吗？万字长文带你彻底搞懂排序算法及其高级应用

最新推荐文章于 2024-09-28 15:38:29 发布

干货没人看

最新推荐文章于 2024-09-28 15:38:29 发布

阅读量1k

点赞数 29

文章标签： c语言 c++ 经验分享算法 python

本文链接：https://blog.csdn.net/qq_36916968/article/details/141428191

版权

表面看似普通，背后却是高能应用的大杀器！

你以为排序算法只是用来把数字乖乖排好？但真的是这样吗？很多人都这么认为，但真的对吗？今天我来颠覆你的认知：这些看似简单的C语言排序算法，背后竟然隐藏着不为人知的强大应用！如果你只把它们当成普通的排序工具，那你就大错特错了！它们能做的远比你想象的多得多！准备好迎接这一波脑洞大开的知识冲击了吗？

1. 冒泡排序：谁说它是“幼儿园级别”？其实能检测数据的健康状况！

说到冒泡排序，可能不少人会不屑一顾：“这也太基础了吧！效率低下，性能差劲，根本不堪大用！”但事实是，冒泡排序有一个隐藏的天赋，它能敏锐地察觉数据的“健康”状态——也就是数据是否已经接近排序！想象一下，在一个几乎排好序的数组上，冒泡排序仅需少量的比较和交换就能完美完成排序任务，效率远超预期。别急，这可不是空话，我们来看看代码：

void bubbleSort(int arr[], int n) {
    for (int i = 0; i < n-1; i++) { // 外层循环控制整体遍历次数
        int swapped = 0; // 记录本轮是否发生交换
        for (int j = 0; j < n-i-1; j++) { // 内层循环控制每一轮的相邻元素比较
            if (arr[j] > arr[j+1]) { // 如果前一个元素大于后一个元素，则交换
                int temp = arr[j];
                arr[j] = arr[j+1];
                arr[j+1] = temp;
                swapped = 1; // 发生了交换，标记为1
            }
        }
        if (swapped == 0) // 如果一轮下来没有发生交换，说明已经有序，直接结束
            break;
    }
}

在这段代码中，swapped变量是冒泡排序的秘密武器：如果一次遍历后没有任何交换发生，说明数组已经有序，排序可以提前终止。这种智能停止机制不仅提升了效率，更让它在“近似有序”的数据场景中表现出色。比如，在更新一个动态排行榜时，冒泡排序能快速调整名次，少量交换即可搞定！

2. 选择排序：不被看好的它，却是内存危机下的“英雄”！

选择排序给人的印象可能就是“简单粗暴”——每次从未排序的部分挑出最小的元素放到前面，直到整个数组有序。它的运行时间总是固定的，但这并不妨碍它在内存资源紧张的场合大显身手。你以为排序算法总需要复杂的数据结构和大量的内存空间？真的是这样吗？来看看选择排序的优雅代码：

void selectionSort(int arr[], int n) {
    for (int i = 0; i < n-1; i++) { // 外层循环遍历未排序部分
        int minIdx = i; // 假设当前索引是最小元素的位置
        for (int j = i+1; j < n; j++) { // 内层循环找到最小元素的索引
            if (arr[j] < arr[minIdx]) {
                minIdx = j;
            }
        }
        // 交换当前元素与最小元素
        int temp = arr[minIdx];
        arr[minIdx] = arr[i];
        arr[i] = temp;
    }
}

这个算法的最大优势在于空间复杂度。选择排序只需要常数级别的额外空间，没有额外的内存占用，且交换次数少。这让它成为内存紧张环境中的“救世主”，特别是在嵌入式系统或小型设备中，选择排序可以完美完成任务，而不会因为内存不足导致系统崩溃。比如，你在一个仅有几KB内存的小型传感器设备上排序数据，选择排序的优势立马显现！

3. 快速排序：不仅是排序界的“速度王者”，更有个神秘“分身”！

快速排序，顾名思义，它以迅雷不及掩耳之势完成排序任务，是大多数情况下最有效的排序算法之一。它使用分治法，通过递归地将数组分成两部分分别排序，然后合并结果。这里有个“王者级”代码：

void quickSort(int arr[], int low, int high) {
    if (low < high) {
        // pi是分区索引，arr[pi]已经排好
        int pi = partition(arr, low, high);

        quickSort(arr, low, pi - 1); // 递归排序左子数组
        quickSort(arr, pi + 1, high); // 递归排序右子数组
    }
}

// 这个函数选择最后一个元素作为基准，并正确地分区数组
int partition(int arr[], int low, int high) {
    int pivot = arr[high]; // 选择最后一个元素作为基准
    int i = (low - 1); // i是小于基准值的最后一个元素的索引

    for (int j = low; j < high; j++) {
        if (arr[j] < pivot) { // 如果当前元素小于基准值
            i++; // 将小于基准值的元素索引前移
            int temp = arr[i];
            arr[i] = arr[j];
            arr[j] = temp;
        }
    }

    // 交换基准值和i+1位置的元素
    int temp = arr[i + 1];
    arr[i + 1] = arr[high];
    arr[high] = temp;

    return (i + 1); // 返回基准值的新索引
}

快速排序的效率毋庸置疑，但你知道它的“兄弟”——**快速选择（Quickselect）**吗？快速选择是快速排序的变种，能在无需完全排序的情况下，迅速找到第k小的元素。比如你需要找到一个无序数组中的中位数，传统方法可能需要先排序再查找，但快速选择直接跳过冗余步骤，直捣黄龙！这在大数据分析中尤为重要，尤其是当你只关心特定百分位数时，快速选择简直就是效率神器！

4. 归并排序：分而治之的强者，也是大数据处理中的王者！

归并排序是另一种常见的排序算法，它采用“分而治之”的策略，将数组递归地一分为二，分别排序，然后合并。尽管看似耗时，但它却有一个致命优势——稳定且适合大数据处理。看一下经典代码：

void merge(int arr[], int l, int m, int r) {
    int n1 = m - l + 1;
    int n2 = r - m;

    int L[n1], R[n2]; // 创建临时数组

    for (int i = 0; i < n1; i++)
        L[i] = arr[l + i]; // 拷贝数据到临时数组L
    for (int j = 0; j < n2; j++)
        R[j] = arr[m + 1 + j]; // 拷贝数据到临时数组R

    int i = 0, j = 0, k = l; // 合并临时数组回到arr中
    while (i < n1 && j < n2) {
        if (L[i] <= R[j]) {
            arr[k] = L[i];
            i++;
        } else {
            arr[k] = R[j];
            j++;
        }
        k++;
    }

    // 拷贝剩余的L元素（如果有）
    while (i < n1) {
        arr[k] = L[i];
        i++;
        k++;
    }

    // 拷贝剩余的R元素（如果有）
    while (j < n2) {
        arr[k] = R[j];
        j++;
        k++;
    }
}

void mergeSort(int arr[], int l, int r) {
    if (l < r) {
        int m = l + (r - l) / 2; // 找到中间点
        mergeSort(arr, l, m); // 排序前半部分
        mergeSort(arr, m + 1, r); // 排序后半部分
        merge(arr, l, m, r); // 合并两部分
    }
}

归并排序以其稳定性著称，尤其适合处理海量数据。你以为排序只在内存中完成？但事实上，归并排序是外部排序的关键利器。

你知道吗？那些看似难以驾驭的算法，如最近邻问题和Kruskal最小生成树算法，竟然也能被排序“轻松拿下”！准备好，接下来的一波知识将会彻底刷新你的算法观念！

5. 最近邻问题：用排序搞定“最接近”谁！

最近邻问题（Nearest Neighbor Problem）广泛应用于图像处理、机器学习和地理信息系统等领域，它的目标是快速找到距离目标点最近的点。你可能觉得这个问题复杂，但我们有一个“秘密武器”：排序！

想象一下，你有一组二维平面上的点集，以及一个目标点。任务是找到离目标点最近的那个点。要解决这个问题，最直接的方法是计算每个点到目标点的距离，然后找到最小值。然而，这样的暴力方法在处理大规模数据时效率不高。

现在，来看看如何用排序优化这个问题：

#include <stdio.h>
#include <stdlib.h>
#include <math.h>

// 定义一个结构体表示二维点
typedef struct {
    int x, y;
} Point;

// 计算两点之间的欧几里得距离
double distance(Point p1, Point p2) {
    return sqrt((p1.x - p2.x) * (p1.x - p2.x) + (p2.y - p1.y) * (p2.y - p1.y));
}

// 比较函数，用于按x坐标排序
int compareX(const void* a, const void* b) {
    Point *p1 = (Point *)a, *p2 = (Point *)b;
    return p1->x - p2->x;
}

// 在一组点中找到最近点对
double nearestNeighbor(Point points[], int n) {
    qsort(points, n, sizeof(Point), compareX);  // 按x坐标排序
    
    double minDist = INFINITY;
    
    for (int i = 0; i < n-1; i++) {
        for (int j = i+1; j < n && (points[j].x - points[i].x) < minDist; j++) {
            double dist = distance(points[i], points[j]);
            if (dist < minDist) {
                minDist = dist;
            }
        }
    }
    return minDist;
}

int main() {
    Point points[] = {{2, 3}, {12, 30}, {40, 50}, {5, 1}, {12, 10}, {3, 4}};
    int n = sizeof(points) / sizeof(points[0]);
    printf("最近的距离是: %f\n", nearestNeighbor(points, n));
    return 0;
}

这段代码展示了如何利用排序优化最近邻问题。通过先按x坐标对点进行排序，缩小了计算范围：只需要在一小部分点中寻找最近邻点，而不是遍历所有点对。这种方法比暴力搜索更高效，尤其适用于点集分布较稀疏的场景。

这个算法背后的思想是：在最近邻问题中，排序能帮助我们将问题的规模大大缩小，从而快速锁定结果。而且，利用排序，还可以扩展到更复杂的KD树结构，用于高维空间中的最近邻搜索。

6. Kruskal算法：用排序构建最小生成树的终极利器！

Kruskal算法是图论中求解最小生成树（MST）的经典算法之一。很多人一听“最小生成树”，就觉得这是高级数学题，普通人搞不定。其实，Kruskal算法的核心仅仅是排序！通过简单的排序和贪心选择，它能优雅地解决这个复杂问题。让我们来深入了解一下。

Kruskal算法的基本思想是：将图中所有边按权重从小到大排序，然后依次选择最小的边，确保没有形成环，直到构造出一棵覆盖所有顶点的最小生成树。

步骤如下：

排序边集： 将图中的所有边按权重从小到大排序。
初始化： 每个顶点自成一个集合（用并查集实现）。
选择边： 按权重从小到大依次选择边，如果边的两个顶点属于不同的集合，则加入该边，否则跳过（避免环的形成）。
重复直到生成树包含n-1条边为止（n为顶点数）。

来看实现代码：

#include <stdio.h>
#include <stdlib.h>

// 定义边结构体
typedef struct {
    int src, dest, weight;
} Edge;

// 定义图结构体
typedef struct {
    int V, E;
    Edge* edge;
} Graph;

// 创建一个图
Graph* createGraph(int V, int E) {
    Graph* graph = (Graph*) malloc(sizeof(Graph));
    graph->V = V;
    graph->E = E;
    graph->edge = (Edge*) malloc(graph->E * sizeof(Edge));
    return graph;
}

// 比较函数，用于按边的权重排序
int compare(const void* a, const void* b) {
    Edge* a1 = (Edge*)a;
    Edge* a2 = (Edge*)b;
    return a1->weight > a2->weight;
}

// 并查集：查找子集的根
int find(int parent[], int i) {
    if (parent[i] == i)
        return i;
    return find(parent, parent[i]);
}

// 并查集：联合两个子集
void Union(int parent[], int rank[], int x, int y) {
    int xroot = find(parent, x);
    int yroot = find(parent, y);

    if (rank[xroot] < rank[yroot])
        parent[xroot] = yroot;
    else if (rank[xroot] > rank[yroot])
        parent[yroot] = xroot;
    else {
        parent[yroot] = xroot;
        rank[xroot]++;
    }
}

// Kruskal算法主函数
void KruskalMST(Graph* graph) {
    int V = graph->V;
    Edge result[V];
    int e = 0; // 结果中的边数
    int i = 0; // 初始排序后的边索引

    // 按权重排序所有边
    qsort(graph->edge, graph->E, sizeof(graph->edge[0]), compare);

    // 创建V个子集，初始时每个顶点是自己的子集
    int *parent = (int*) malloc(V * sizeof(int));
    int *rank = (int*) malloc(V * sizeof(int));

    for (int v = 0; v < V; ++v) {
        parent[v] = v;
        rank[v] = 0;
    }

    // 遍历已排序的边集
    while (e < V - 1 && i < graph->E) {
        Edge next_edge = graph->edge[i++];

        int x = find(parent, next_edge.src);
        int y = find(parent, next_edge.dest);

        // 如果没有形成环，则将边加入结果
        if (x != y) {
            result[e++] = next_edge;
            Union(parent, rank, x, y);
        }
    }

    // 输出结果
    printf("以下为构造出的最小生成树的边:\n");
    for (i = 0; i < e; ++i)
        printf("%d -- %d == %d\n", result[i].src, result[i].dest, result[i].weight);

    free(parent);
    free(rank);
}

int main() {
    int V = 4;  // 顶点数
    int E = 5;  // 边数
    Graph* graph = createGraph(V, E);

    // 边的输入
    graph->edge[0].src = 0;
    graph->edge[0].dest = 1;
    graph->edge[0].weight = 10;

    graph->edge[1].src = 0;
    graph->edge[1].dest = 2;
    graph->edge[1].weight = 6;

    graph->edge[2].src = 0;
    graph->edge[2].dest = 3;
    graph->edge[2].weight = 5;

    graph->edge[3].src = 1;
    graph->edge[3].dest = 3;
    graph->edge[3].weight = 15;

    graph->edge[4].src = 2;
    graph->edge[4].dest = 3;
    graph->edge[4].weight = 4;

    KruskalMST(graph);

    return 0;
}

在这个代码中，排序起到了决定性的作用。通过对所有边按权重进行排序。

数据压缩与编码：排序算法助力信息论

你可能不知道，排序算法在数据压缩和编码领域也有着不可忽视的作用。赫夫曼编码（Huffman Coding）就是其中的经典案例。赫夫曼编码利用频率对字符进行排序，然后构建最优二叉树，实现数据压缩。这种编码方式常被用于压缩文件格式，如ZIP和JPEG。

赫夫曼编码中的排序：

struct Node {
    char ch;
    int freq;
    struct Node* left;
    struct Node* right;
};

int cmpFreq(const void* a, const void* b) {
    return ((struct Node*)a)->freq - ((struct Node*)b)->freq;
}

void huffmanCoding(struct Node nodes[], int n) {
    qsort(nodes, n, sizeof(struct Node), cmpFreq);
    // 通过排序后的节点构建赫夫曼树
}

赫夫曼编码通过频率排序，为字符赋予最优编码，极大提高了数据压缩效率。

稳定排序与计数排序：管理复杂数据的利器

在实际应用中，排序算法的“稳定性”尤为重要。所谓稳定性，指的是在排序过程中，如果两个元素的键值相同，它们的相对顺序保持不变。在金融、医疗等领域，稳定排序算法如归并排序和计数排序被广泛应用。

计数排序的应用：

void countingSort(int arr[], int n, int maxVal) {
    int count[maxVal + 1], output[n];
    memset(count, 0, sizeof(count));
    for (int i = 0; i < n; i++)
        count[arr[i]]++;
    for (int i = 1; i <= maxVal; i++)
        count[i] += count[i - 1];
    for (int i = n - 1; i >= 0; i--)
        output[--count[arr[i]]] = arr[i];
    // 将输出数组复制到原数组中
}

计数排序在管理复杂数据集时，通过稳定排序有效保证了数据的一致性。

外部排序：应对海量数据的神器

当数据量大到无法完全加载到内存时，外部排序算法就派上了用场。外部排序如多路归并排序，利用磁盘和内存之间的协调，处理TB级的数据。这个算法在大数据处理、数据库查询优化等场景中至关重要。

多路归并排序：

void externalSort(const char* inputFile, const char* outputFile, int runSize, int numWays) {
    FILE* inFile = fopen(inputFile, "r");
    FILE* outFile = fopen(outputFile, "w");
    // 对文件进行多路归并排序操作
}

外部排序结合磁盘IO优化，能有效处理无法直接存入内存的海量数据。

负载均衡与调度算法：排序算法的核心角色

在操作系统中，负载均衡和任务调度是性能优化的关键。调度算法如最短作业优先（SJF），正是依赖于排序算法将任务按执行时间排序，实现最优调度。

任务调度中的排序：

struct Job {
    int jobId;
    int burstTime;
};

int cmpBurstTime(const void* a, const void* b) {
    return ((struct Job*)a)->burstTime - ((struct Job*)b)->burstTime;
}

void sjfScheduling(struct Job jobs[], int n) {
    qsort(jobs, n, sizeof(struct Job), cmpBurstTime);
    // 根据排序后的作业执行任务调度
}