字符串分割函数strtok()详解

byte轻骑兵

已于 2024-09-08 17:04:57 修改

阅读量924

点赞数 35

分类专栏： # C语言深度解析坊编程语言精要文章标签：开发语言 c++ c

于 2024-09-08 17:00:19 首次发布

本文链接：https://blog.csdn.net/weixin_37800531/article/details/142029093

版权

C语言深度解析坊同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

编程语言精要

28 篇文章 0 订阅

订阅专栏

一、函数简介

strtok 函数是 C 语言标准库中的一个用于字符串分割的函数，它通过查找一组指定的分隔符（delimiter characters）来将字符串分割成一系列的子字符串（或称为标记/tokens）。每次调用 strtok 时，它会返回指向下一个标记的指针，这个标记是从字符串中提取出的、不包含任何分隔符的连续字符序列。

二、函数原型

char *strtok(char *str, const char *delim);

str：指向要分割的字符串的指针。首次调用时，str 应指向待分割的原始字符串。在后续的调用中，为了继续从上次停止的地方分割剩余的字符串，str 应被设置为 NULL。
delim：指向一个字符串的指针，该字符串包含了用作分隔符的字符集合。这些字符中的任何一个在 str 中出现时，都会被视为标记之间的分隔。

返回值

成功时，strtok 返回指向下一个标记的指针。
如果没有更多的标记可返回，则返回 NULL。

三、函数实现（伪代码）

strtok 函数的实现细节可能会因不同的 C 标准库实现而异，但基本的思想是类似的。下面我将提供一个简化的 strtok 函数实现示例，以帮助理解它的工作原理。请注意，这个示例不是线程安全的，因为它使用了静态变量来保存状态。

#include <string.h>  
#include <stdio.h>  
  
static char *static_str = NULL; // 静态变量，用于存储当前处理的位置  
  
char *my_strtok(char *str, const char *delim) {  
    char *ret;  
    char *end;  
  
    // 如果是首次调用，或者之前已经到达字符串末尾，则更新static_str为str  
    if (str != NULL || static_str == NULL) {  
        static_str = str;  
    }  
  
    // 找到第一个非分隔符字符  
    while (*static_str && strchr(delim, *static_str)) {  
        static_str++;  
    }  
  
    // 如果没有找到任何非分隔符字符，则返回NULL  
    if (!*static_str) {  
        return NULL;  
    }  
  
    // ret指向当前标记的起始位置  
    ret = static_str;  
  
    // 找到第一个分隔符字符，或者字符串末尾  
    while (*static_str && !strchr(delim, *static_str)) {  
        static_str++;  
    }  
  
    // 如果找到分隔符，则将其替换为'\0'来结束当前标记  
    if (*static_str) {  
        end = static_str;  
        *end = '\0';  
        static_str++; // 移动到下一个字符，为下次调用准备  
    }  
  
    // 返回指向当前标记的指针  
    return ret;  
}  
  
int main() {  
    char str[] = "This, a sample string.";  
    const char delimiters[] = ", .";  
    char *token;  
  
    // 获取并打印所有标记  
    while ((token = my_strtok(NULL, delimiters)) != NULL) {  
        printf("%s\n", token);  
    }  
  
    // 注意：上面的循环从my_strtok(NULL, delimiters)开始，因为首次调用应该在main中传递str  
    // 这里为了演示方便，假设首次调用已经在其他地方完成了（虽然在实际使用中并不常见）  
  
    // 如果真的要在main中首次调用，应该这样做：  
    // token = my_strtok(str, delimiters);  
    // while (token != NULL) {  
    //     printf("%s\n", token);  
    //     token = my_strtok(NULL, delimiters);  
    // }  
  
    return 0;  
}

注意：上面的 main 函数中的循环示例可能看起来有些误导，因为在实际使用中，通常会在循环外部首次调用 my_strtok(str, delimiters)，并在循环内部调用 my_strtok(NULL, delimiters) 来继续分割剩余的字符串。我在注释中说明了这一点。

此外，这个简化的实现没有处理所有可能的边界情况和错误输入，但它应该足以说明 strtok 函数的基本工作原理。在实际的 C 标准库实现中，strtok 函数可能会更加复杂和健壮。

最后，请记住，由于 my_strtok 函数使用了静态变量来保存状态，因此它不是线程安全的。如果需要线程安全的字符串分割，请考虑使用 strtok_r 或其他替代方案。

四、使用场景

以下是 strtok 函数的一些典型使用场景。

4.1. 文本解析

在处理文本文件或用户输入时，经常需要将字符串分割成更小的部分以便进一步处理。例如，解析逗号分隔值（CSV）文件时，可以使用 strtok 函数将每行数据按逗号分割成多个字段。

4.2. 命令行参数解析

在编写需要处理命令行参数的程序时，strtok 可以用来将命令行字符串（通常是 main 函数的 argv[1] 或之后的参数）按空格或特定分隔符分割成单独的参数。

4.3. 字符串重构

虽然 strtok 本身并不直接用于字符串重构，但它可以在字符串重构的过程中发挥作用。比如，在从一个复杂的字符串中提取出所需部分后，可以使用这些部分来构建新的字符串。

4.4. 日志分析

在处理日志文件时，日志项可能由特定的分隔符分隔（如空格、逗号、制表符等）。strtok 可以用来将这些日志项分割成单独的条目，以便进行进一步的分析或处理。

4.5. 数据转换

在某些情况下，需要将一种格式的字符串数据转换为另一种格式。例如，将字符串中的日期从一种分隔格式（如“年-月-日”）转换为另一种分隔格式（如“月/日/年”）。虽然这通常涉及更复杂的字符串处理逻辑，但 strtok 可以作为分割字符串的初步步骤。

五、注意事项

使用 strtok 函数时，确实需要注意一些关键事项以确保程序的正确性和健壮性。以下是一些使用 strtok 时应该牢记的注意事项。

5.1. 修改原字符串

strtok 会修改传入的字符串，将分隔符替换为字符串结束符 '\0'。因此，如果需要保留原始字符串，请在调用 strtok 之前创建其副本。

5.2. 静态内部状态

strtok 使用一个静态的内部变量（或称为“静态内部缓冲区”）来跟踪当前处理的位置。这意味着它不能同时用于安全地分割两个不同的字符串，除非在两次调用之间使用 strtok(NULL, delim) 来继续分割同一个字符串。此外，由于这个静态变量的存在，strtok 不是线程安全的。

5.3. 线程安全性

如上所述，由于 strtok 使用了静态内部状态，因此在多线程环境中使用它可能会导致数据竞争和不可预测的行为。如果你需要在多线程环境中分割字符串，请考虑使用 strtok_r（POSIX 标准中定义的线程安全版本）或编写自己的线程安全的字符串分割函数。

5.4. 分隔符字符串

分隔符字符串中的每个字符都被视为一个潜在的分隔符。确保分隔符字符串中的字符是你真正想要用作分隔符的字符。此外，分隔符字符串中的字符顺序并不重要，因为 strtok 会逐个字符地检查它们。

5.5. 空字符串和空分隔符

如果传入的字符串是空的（即 ""），或者分隔符字符串是空的（即 "" 或 NULL），则 strtok 的行为可能是未定义的或不符合直觉的。在大多数情况下，你应该避免使用空字符串作为输入或分隔符。

5.6. 连续分隔符

strtok 会将连续的分隔符视为单个分隔符，并跳过它们之间的所有字符（实际上是将它们替换为 '\0'）。这意味着如果有两个连续的分隔符，则 strtok 会将它们视为一个分隔符，并且不会生成空的标记。

5.7. 空指针的后续调用

在首次调用 strtok 后，需要通过传递 NULL 作为第一个参数来继续分割剩余的字符串。这是告诉 strtok 从上次停止的地方继续分割的关键。

5.8. 返回值检查

始终检查 strtok 的返回值以确保它不是 NULL。当 strtok 返回 NULL 时，表示没有更多的标记可返回（即已经到达字符串的末尾）。

5.9. 错误处理和异常

虽然 strtok 本身不直接提供错误处理机制（如设置 errno 或抛出异常），但应该在调用 strtok 之前验证其输入参数的有效性，并在需要时处理潜在的异常情况。

5.10. 性能考虑

在性能敏感的应用程序中，如果需要频繁地分割大量字符串，则可能需要考虑 strtok 的性能影响。虽然对于大多数用途来说，strtok 的性能是可以接受的，但在某些情况下，它可能不是最高效的解决方案。在这种情况下，可以考虑使用其他字符串分割方法或优化你的数据结构和算法。

六、使用示例

下面是一个使用 strtok 函数的简单示例。这个示例展示了如何根据空格来分割一个字符串，并打印出分割后的各个部分（标记）。请注意，由于 strtok 会修改原始字符串，因此在处理重要数据时最好先复制一份。

#include <stdio.h>  
#include <string.h>  
  
int main() {  
    char str[] = "This is a simple example.";  
    char *token;  
    const char delim[] = " ";  
  
    // 第一次调用 strtok，传入要分割的字符串和分隔符  
    token = strtok(str, delim);  
  
    // 循环调用 strtok，传入 NULL 和分隔符，直到没有更多的标记  
    while (token != NULL) {  
        printf("%s\n", token);  
        token = strtok(NULL, delim);  
    }  
  
    return 0;  
}

在这个示例中，字符串 "This is a simple example." 被空格 " " 分割成了多个部分，并逐一打印出来。输出结果：