在所有的文本处理程序里,动态字符串是必备的基础模块。
(编译器也是一个大号的文本处理程序。它的功能就是把类似人类语言的源代码,转化成机器语言。)
代码是字符串,人类语言是字符串,人类的语音也是“字符串”,区别是它们各自的字符集不一样,字符串的比较函数也不一样。
代码,一般是由关键字、数字、运算符、下划线和英文字母组成的序列。
人类语言,不同的语言有不同的字符,写成文章之后也是字符组成的序列。
语音,录下来之后也是采样点组成的序列。采样点的范围就是它的“字符集”。
(当然,语音的比较是比较难的,属于专门的学科:自然语言处理,NLP。)
不管是代码还是文章,在实际应用时它的大小都是不固定的,也就要求处理它的程序里必须具有处理动态字符串的模块。
C++是有string字符串类的(大多数语言都有),但是C语言的字符串就比较粗糙。
不记录长度的做法导致strlen()函数的效率低下,而且strcpy()和strcat()函数还隐藏着缓冲区溢出的风险,所以各种开源软件都自己实现一个动态字符串。
这里咱也给它实现一个:
数据结构和函数的定义如上图。
capacity表示容量,len表示长度,容量减去长度就是剩余的可用空间。
如果有剩余空间,在strcat()时就不必分配内存,可以尽量减少realloc的次数。
scf_string_alloc()相当于默认的无参构造。
scf_string_clone()相当于拷贝构造。
scf_string_free()相当于析构。
scf_string_cmp()相当于operator==()的重载函数。
scf_string_copy()相当于operator=()的重载函数,即拷贝赋值。
scf_string_cat()相当于operator+=()的重载函数,它与构造函数都有3个,其中2个用于支持C风格的字符串,用于连接字符串。
scf_string_cstr_len(),在调用者知道字符串长度的时候,可以节省一次strlen()的调用。
另外可以用在非0结尾的字符串上,例如在HTTP协议头里,根据结尾的\r\n拆分每一行。
从一大串HTTP头里查找"\r\n",可以使用KMP算法,见之前的文章:
字符串匹配的KMP算法
接下来的几张图,是具体的代码实现。
设置的每次申请内存时,额外增加4个字节。
使用最多的是最后这3个字符串连接函数,在编译器的词法分析时,一个词的字符是随着分析过程逐渐连接上去的。
想了解更多精彩内容,快来关注闲聊代码