从内存与汇编的角度理解C语言指针第06篇:为什么 while (*s++ = *t++) 的作用是复制字符串?【视频解析】

!!!喜欢看视频的朋友请点这里!!!

一、来源

这篇文章《7 suggestions for Computer Majors(给计算机专业的7条建议)》中诞生了while (*s++ = *t++)这行大名鼎鼎的代码,大意是说:只要你不能解释为什么while (*s++ = *t++)的作用是复制字符串,那你就是在盲目无知的情况下编程。
这话说得很有技巧,让人产生一种错觉:只要我理解了while (*s++ = *t++),我就学会C语言了。

网上已经有过很多解释文章了,感兴趣的可以搜搜看。本文主要是从内存与汇编的角度去理解,不止是解释正确的代码,也会解释错误的代码。


二、错误版本

在上述错觉的鼓动下,我凭直觉写了第1个版本,代码是错的,如下:

#include <stdio.h>

int main() {
    char *s = "hello";
    char *t = "world";
    while (*s++ = *t++);
    printf("%s\n", s);
    printf("%s\n", t);
    return 0;
} 

C代码while (*s++ = *t++)对应的汇编代码如下(下文称为汇编代码):

nop                             // 空操作,产生一个时延
mov rdx,QWORD PTR [rbp-0x8]     // 把内存单元[rbp-0x8]中的值存入rdx寄存器,8字节
								// 注:[rbp-0x8]是变量t的地址,存的值是world

lea rax,[rdx+0x1]               // rdx寄存器中的值加上1,把地址存入rax寄存器
								// 注:执行了 t++ 
								// 注意这里的rdx中的值并没有加1
								// [rdx]内存单元还是指向的w

mov QWORD PTR [rbp-0x8],rax     // 把rax寄存器中的值存入[rbp-0x8]内存单元,8字节
								// 注:此时[rbp-0x8]存的值是orld(不再指向w,而是指向o)

mov rax,QWORD PTR [rbp-0x10]    // 把内存单元[rbp-0x10]中的值存入rax寄存器,8字节
								// 注:[rbp-0x10]是变量s的地址,存的值是hello

lea rcx,[rax+0x1]               // rax寄存器中的值加1,把加1后的地址存入rcx寄存器
								// 注:执行了 s++
								// 注意这里的rax中的值并没有加1
								// [rax]内存单元还是指向的h

mov QWORD PTR [rbp-0x10],rcx    // 把rcx寄存器中的值存入[rbp-0x10]内存单元,8字节
								// 注:此时[rbp-0x10]存的值是ello(不再指向h,而是指向e)

movzx edx,BYTE PTR [rdx]        // 把[rdx]内存单元的值(即w)存入edx寄存器
mov BYTE PTR [rax],dl           // 把dl寄存器(edx的低8位,即w)中的值存入[rax]内存单元

movzx eax,BYTE PTR [rax]        // 从[rax]内存单元取1个字节,存入eax寄存器
test al,al                      // 执行与操作
jne 0x55555555516c              // 如果上一步的结果不为0,则进入下次循环

单步跟踪时发现在第25行报错:

mov BYTE PTR [rax],dl           // 把dl寄存器(edx的低8位,即w)中的值存入[rax]内存单元

程序的原意是复制字符串,程序做的也确实是复制字符串,但是 char *s = "hello"char *t = "world"这种以指针的形式定义的字符串,都存储在了内存中的常量存储区,是不允许修改的,而上面那行汇编却去改了它的值,因此报错。


三、正确版本

#include <stdio.h>

int main() {
    char hello[] = "hello";
    char world[] = "world";
    char *s = hello;
    char *t = world;
    while (*s++ = *t++);
    printf("%s\n", hello);
    printf("%s\n", world);
    return 0;
}

跟错误版本的区别是,字符串的定义从char *s = "hello"改成了char hello[] = "hello",这里的字符串不是存储在常量存储区,而是存储在栈区。参考文章:《字符串常量到底存放在哪个存储区》

汇编代码跟上面错误版本的一样(只是内存地址不一样),这里不再列出汇编代码,只分析内存布局。


3.1 初始内存布局

变量内存地址偏移量变量值
s0x7fffffffe348-0x280x7fffffffe35c
t0x7fffffffe350-0x200x7fffffffe362
hello0x7fffffffe35c-0x14h
0x7fffffffe35d-0x13e
0x7fffffffe35e-0x12l
0x7fffffffe35f-0x11l
0x7fffffffe360-0x10o
0x7fffffffe361-0xf0x0
world0x7fffffffe362-0xew
0x7fffffffe363-0xdo
0x7fffffffe364-0xcr
0x7fffffffe365-0xbl
0x7fffffffe366-0xad
0x7fffffffe367-0x90x0

3.2 执行完t++时的内存布局

对应以下汇编指令(看注释):

mov rdx,QWORD PTR [rbp-0x20]  // rdx = 0x7fffffffe362,对应内存值是 w
lea rax,[rdx+0x1]             // rax = 0x7fffffffe363,对应内存值是 o
mov QWORD PTR [rbp-0x20],rax  // 变量t = 0x7fffffffe363,对应内存值是 o

这里啰嗦一句:仔细看,对汇编而言,t++是需要再拆分的,先是在第1行是取了t的值(w),然后才在后面两行执行了++

内存布局如下,变动的地方已突出显示:

变量内存地址偏移量变量值
s0x7fffffffe348-0x280x7fffffffe35c
t0x7fffffffe350-0x200x7fffffffe363
hello0x7fffffffe35c-0x14h
0x7fffffffe35d-0x13e
0x7fffffffe35e-0x12l
0x7fffffffe35f-0x11l
0x7fffffffe360-0x10o
0x7fffffffe361-0xf0x0
world0x7fffffffe362-0xew
0x7fffffffe363-0xdo
0x7fffffffe364-0xcr
0x7fffffffe365-0xbl
0x7fffffffe366-0xad
0x7fffffffe367-0x90x0

此时t指向了world中的字母o


3.3 执行完s++时的内存布局

对应以下汇编指令(看注释):

mov rax,QWORD PTR [rbp-0x28]  // rax = 0x7fffffffe35c,对应内存值是 h
lea rcx,[rax+0x1]             // rcx = 0x7fffffffe35d,对应内存值是 e
mov QWORD PTR [rbp-0x28],rcx  // 变量s = 0x7fffffffe35d,对应内存值是 e

内存布局如下,变动的地方已突出显示:

变量内存地址偏移量变量值
s0x7fffffffe348-0x280x7fffffffe35d
t0x7fffffffe350-0x200x7fffffffe363
hello0x7fffffffe35c-0x14h
0x7fffffffe35d-0x13e
0x7fffffffe35e-0x12l
0x7fffffffe35f-0x11l
0x7fffffffe360-0x10o
0x7fffffffe361-0xf0x0
world0x7fffffffe362-0xew
0x7fffffffe363-0xdo
0x7fffffffe364-0xcr
0x7fffffffe365-0xbl
0x7fffffffe366-0xad
0x7fffffffe367-0x90x0

此时s指向了hello中的字母e


3.4 执行完(*s++ = *t++)时的内存布局

对应以下汇编指令(看注释):

movzx edx,BYTE PTR [rdx]      // edx = w,其中低8位dl也是 w
mov BYTE PTR [rax],dl         // 内存 0x7fffffffe35c 的值从 h 改成 w

内存布局如下,变动的地方已突出显示:

变量内存地址偏移量变量值
s0x7fffffffe348-0x280x7fffffffe35d
t0x7fffffffe350-0x200x7fffffffe363
hello0x7fffffffe35c-0x14w
0x7fffffffe35d-0x13e
0x7fffffffe35e-0x12l
0x7fffffffe35f-0x11l
0x7fffffffe360-0x10o
0x7fffffffe361-0xf0x0
world0x7fffffffe362-0xew
0x7fffffffe363-0xdo
0x7fffffffe364-0xcr
0x7fffffffe365-0xbl
0x7fffffffe366-0xad
0x7fffffffe367-0x90x0

可以看到hello变量的值的第一个字节已经从h变成了w,这样就完成了第一个字母的复制,后续几个字母的复制过程也是类似的。

接下来执行剩下的判断条件的汇编:

movzx eax,BYTE PTR [rax]      // eax = w
test al,al                    // 测试 w && w,结果不是0
                              // 注:直到最后一步遇到world之后的`\0`时结果才是0
jne 0x5555555551af            // 继续循环(或最后一次跳出循环)

直到最后一步遇到world之后的\0时,test al,al的结果就是0,才会跳出循环。

四、总结

while (*s++ = *t++);之所以难以理解,是因为这行代码的浓缩性太强了,一行C代码对应了十几行汇编代码。
从上文的分析可以看出,对应的汇编可以分为4部分:

  1. t++
  2. s++
  3. *s++ = *t++
  4. while条件判断

一步一步去理解就没有那么难了。t++的目的是挨个取出world中的字母,s++的目的是指定要把取出的字母复制到哪个地方去,而while循环终结于系统为每个字符串末尾自动追加的\0


全文完

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值