c++ malloc能给string_第13篇 C/C++的字符串的内存模型

字符串是以ASCII字符或Unicode字节排列并且以NUL(即'0')结尾 表示的字符序列

C中的字符串机制

以字符串字面量定义字符串时会将其分配到字面量池中,这个内存区域通常保存组成字符串的字符序列,该内存区域通常被认为是全局/静态的。字符字面量在池中通常只有一份副本并且是只读的,这样可以减少程序的内存占用率。

首先,理解C的字符串运行机制,下面一段简单的代码可以得出关于字符串的不同结论

#include <stdio.h>

char *g="Hello";

int main(int argc, char const *argv[])
{
    char s[]="Hello";
    char *c="Hello";
    printf("字符指针c的内存地址:%pn",&c);
    printf("数组s的内存地址:%pn",&s);
    printf("字符指针g的内存地址:%pn",&g);
    printf("字符指针c指向Hello的的内存地址: %pn",&c[0]);
    printf("字符指针g指向Hello的的内存地址: %pn",&g[0]);
    printf("变量s数组的Hello副本的内存地址:%pn",&s[0]);
    printf("Hello字面量的尺寸 %lun",sizeof("Hello"));
    
    return 0;
}

从示例代码中,全局区声明并以字符串字面量初始化了字符指针g,g的内存地址是0x108993018,这个地址位于全局数据区内,而指针g它指向的“Hello”字面量地址是0x108992e9e.这个地址位于字面量池内. 同时,我们也从main函数内部定义了两个局部变量字符指针变量c,c指针指向的字面量的内存地址和全局字符指针指向的"Hello"字面量是一样的,那么这里可以得出以下关于声明char指针并以字面量初始化的时候,可以得出以下特性。

  1. 将同样一份字符串字面量的地址直接赋给不同的字符指针,不会产生额外字符串的副本,这些字符指针指向同一份字符串字面量。

另外,在main函数内部的数组s,它内部持有字符串数组的地址和字面量池的字符串的地址是不一样的。换句话说,

2.以字符串数组初始化字符串字面量会在对应的函数栈内生成另外一份的字面量副本。 char s[]="HELLO"等价于 strcpY(s,"HELLO")
3.再次,如果你在全局区以字符串数组初始化会,会在全局数据区产生同样的字符串副本。

2f478632af82bd76edc8a60d888c9e93.png


在不同的作用域字符串初始化-内存分布

以下是运行的随机结果:

1e00efc59e6658c726a138ed671c063e.png

C++中的字符串的机制

string是一个包含多个数据成员的字符串对象,这里只是补充《C++ Primer》这本书关于string对象内部机制没详细阐述,做个笔录,这里不会罗列所有的string对象的api,不熟悉的同学可以看《C++ Primer》相关内容。

  • c_str()是一个指针指向动态分配空间中的字符数组中第一个字符的地址。
  • size()包含字符串的长度。
  • capacity()包含当前可能存储在数组中的有效字符数(额外的NUL字符不计算在内)。
  • malloc内存分配
    一个涉及到malloc内存管理程序的实现需要3个字段,每个字段都是三个不同指针:
    • 指向已分配内存的指针;
    • 字符串的逻辑大小(该字符串末尾是NUL字符);
    • 分配的内存大小(必须大于或等于逻辑大小);

4ed5446556e82a9408a0ea95290cb3fb.png
C++中的string对象内部基本原理
#include <iostream>
#include <cstdlib>
#include <string>

using std::string;
using std::cout;
using std::endl;

//重写string类的new操作符,添加一个可以识别malloc操作的输出
void* operator new(std::size_t n){
    cout<<"分配"<<n<<"字节"<<endl;
    return malloc(n);
}

void operator delete(void *p) throw(){
    free(p);
}

int main(int argc, char const *argv[])
{
    string s("HELLO"); //直接初始化
    cout<<"初始化时的状态:"<<endl;
    cout<<"sizeof:"<<sizeof(s)<<endl;
    cout<<"size:"<<s.size()<<endl;
    cout<<"分配的内存尺寸(capacity):"<<s.capacity()<<endl;

    for(size_t i=6;i<24;++i){
        s.push_back('+');
        cout<<i<<":"<<s<<endl;
    }

    cout<<"push_back('+')之后的内存尺寸是"<<endl;
    cout<<"sizeof:"<<sizeof(s)<<endl;
    cout<<"size:"<<s.size()<<endl;
    cout<<"分配的内存尺寸(capacity):"<<s.capacity()<<endl;

运行结果

c63e2a3c0c50ee77460c606102eb3717.png

在for循环前:我们通过调用string三个提到三个基本方法,起初分配的内存是24字节,但允许容纳有效的字符是22个,为什么呢?

因为HELLO后的第6个位置(索引5)包含一个NUL字符(即'0'),而malloc初始化分配的24个字节里的最后一个字节位置也包含一个界定符,我认为也是NUL字符。有效字符的长度是不将NUL字符计算在内的,所有capacity方法才显示22.初始化的状态如下图所示( 重申:另外不同的计算机硬件,不同的OS和编译器环境,malloc初始化时,申请的内存空间是不一样的):

79144badf33436d637aeac341f86fa34.png
c++ string对象初始化的状态

在for循环过程中,我们向malloc剩余的备用空间塞入'+'字符(覆盖了索引5的NUL字符算起),直到索引22的位置也就是最后一个NUL字符的前一个字节位置),string对象内部就触发malloc申请扩容的操作,而申请的内存总数是之前的2倍。

f5495a25163325ea73c4295259302032.png

上面的代码,for的循环的长度加大,总之大于24的任意一个正整数,多实验几次。会得到如下基本特征。

  • 当size()方法得出字符数达到capacity()得出的有效容纳的字符数,string对象内部就会触发malloc的内存重新扩容。
  • 每次malloc扩容后的申请的内存空间尺寸是之前的内存空间尺寸的2倍。

基于这两点,C++的string对象内部封装了涉及malloc操作的指针操作,这大大减轻了程序猿对指针操作不当,带来程序不可预测的可能性。同时使用双倍扩容的方法也最大限度减少了因字符串长度后续增加的频繁malloc操作带来的系统消耗。但是它是以内存空间为代价的,堆里和字面量池总有着相同一份相同的字符串副本。

额外问题:

调试C++程序的时候,有时你需要查看string对象内部的指针,虽然c_str()可以输出字符串首个字符的内存地址,但标准库cout操作会自动对c_str()的内部指针做解引操作,因此cout不能直接得出字符串的地址,而是打印对应的字符串。不需要折腾cout,直接简单的粗暴方法是用C的printf函数

#include <stdio.h>
#include <string>
int main(int argc, char const *argv[])
{
    string s("HELLO"); //直接初始化
    printf("变量的s内存地址:%pn",&s);
    printf("变量的s2内存地址:%pn",&s2);
    printf("字符串对象s的地址:%pn",&s[0]);
    printf("字符串对象s2的地址:%pn",s2.c_str());

    printf("字符串字面量:%pn",&"HELLO");
    return 0;
}

输出

变量的s内存地址:0x7ffee7221568
变量的s2内存地址:0x7ffee7221550
字符串对象s的地址:0x7ffee7221569
字符串对象s2的地址:0x7ffee7221551
字符串字面量:0x1089dfea8

后记:

理解C++的string对象其实是一个STL的容器类,其底层追根塑源就是malloc动态分配堆内存的机制,以后关于字符串的拼接,复制,查找等基本原理,你心里就有底了.

C++只是对C的char*指针指向堆内存的字符串数据,封装了一层外壳string的结构体,因此理解C++的string,就需要你去弄懂C的字符串机制,要彻底理解C的字符串,推荐阅读《深入理解c指针》这本书,里面关于字符串的描述比《征服C指针》讲得更加深入。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值