linux内核相关-c字符数组底层处理

C语言中字符串结束符’\0’

本质

‘\0’就是8位的00000000,因为字符类型中并没有对应的这个字符,所以这么写。’\0’就是 字符串结束标志。

'\0’是转义字符,意思是告诉编译器,这不是字符0,而是空字符。空字符\0对应的二进制为00000000,而数字0为00110000

原来,在C语言中没有专门的字符串变量,通常用一个字符数组来存放一个字符串。字符串总是以’\0’作为串的结束符。因此当把一个字符串存入一个数组时,也把结束符 ‘\0’存入数组,并以此作为该字符串是否结束的标志。有了’\0’标志后,就不必再用字符数组的长度来判断字符串的长度了。

说明

把一个字符串赋值给数组:u8 str1[]={“zhangqiong”};
实际上数组str1在内存中的实际存放情况为:
z h a n g q i o n g ‘\0’
这后面的’\0’是由C编译系统自动加上的。所以在用字符串赋初值时一般无须指定数组的长度, 而由系统自行处理。
把字符数组str1中的字符串拷贝到字符数组str2中。串结束标志’\0’也一同拷贝。

个案

  1. 当数组长度不够。假设我们指定了数组长度,如:u8 str1[13]={“cxjr.21ic.org”};
    由于字符组str1的长度为13,所以后面的信息会丢失,即’\0’丢失。

  2. 如果在给数组赋值时,把每个字符单独用引号括起来。也会丢失’\0’。如:
    u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’};
    如果希望数组以’\0’结束,则可以写成以下三者之一:

u8 str1[]={“cxjr.21ic.org”}; //字符串赋值
u8 str1[]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’,’\0’}; //人工添加
u8 str1[14]={‘c’,‘x’,‘j’,‘r’,’.’,‘2’,‘1’,‘i’,‘c’,’.’,‘o’,‘r’,‘g’}; //故意给数组预留一个空位

字符数组并不要求它的最后一个字符为’\0’,甚至可以不包含’\0’。 例如char c[5]={‘a’,‘b’,‘c’,‘d’,‘e’};也是合法的,但是用printf("%s",c),输出数组时会出错。 “%s"格式符对字符串输出时,遇结束符’\0’就停止输出。 而在前面这个字符数组中并没有结束符’\0’,所以输完abcde还会继续输出一些未知的东西。 这种情况是能用”%c"输出格式循环输出每个字符。

下面对 "%s"的源码处理进行解析,看printf是如何遇到结束符\0就停止的:

int printf(const char *fmt, ...)
{
    int i;
    char buf[256];
 
    va_list arg = (va_list)((char*)(&fmt) + 4);
    i = vsprintf(buf, fmt, arg);
    write(buf, i);
 
    return i;
}
 
int vsprintf(char *buf, const char *fmt, va_list args)
{
    char* p;
    char tmp[256];
    va_list p_next_arg = args;
 
    for (p = buf; *fmt; fmt++)
    {
        if (*fmt != '%')
        {
            *p++ = *fmt;
            continue;
        }
 
        fmt++;
 
        switch (*fmt)
        {
            case 'x':
                itoa(tmp, *((int*)p_next_arg));
                strcpy(p, tmp);
                p_next_arg += 4;
                p += strlen(tmp);
                break;
            case 's':
                break;
            default:
                break;
        }
    }
    
    return (p - buf);
}

其实看看printf中后面的一句:write(buf, i);你也该猜出来了。
write,顾名思义:写操作,把buf中的i个元素的值写到终端。

所以说:vsprintf的作用就是格式化。它接受确定输出格式的格式字符串fmt。用格式字符串对个数变化的参数进行格式化,产生格式化输出。
我代码中的vsprintf只实现了对16进制的格式化。
你只要明白vsprintf的功能是什么,就会很容易弄懂上面的代码。

下面的write(buf, i);的实现就有点复杂了
追踪下write:

write: 
    mov eax, _NR_write 
    mov ebx, [esp + 4] 
    mov ecx, [esp + 8] 
int INT_VECTOR_SYS_CALL 

一个int INT_VECTOR_SYS_CALL表示要通过系统来调用sys_call这个函数
再来看看sys_call的实现:

sys_call: 
     call save 
    
     push dword [p_proc_ready] 
    
     sti 
    
     push ecx 
     push ebx 
     call [sys_call_table + eax * 4] 
     add esp, 4 * 3 
    
     mov [esi + EAXREG - P_STACKBASE], eax 
    
     cli 

     ret 

一个call save,是为了保存中断前进程的状态。

太复杂了,如果详细的讲,设计到的东西实在太多了。
我只在乎我所在乎的东西。sys_call实现很麻烦,我们不妨不分析funny os这个操作系统了。
先假设这个sys_call就一单纯的小女孩。她只有实现一个功能:显示格式化了的字符串。

这样,如果只是理解printf的实现的话,我们完全可以这样写sys_call:

sys_call: 
     ;ecx中是要打印出的元素个数 
     ;ebx中的是要打印的buf字符数组中的第一个元素 
     ;这个函数的功能就是不断的打印出字符,直到遇到:'\0' 
     ;[gs:edi]对应的是0x80000h:0采用直接写显存的方法显示字符串 
     xor si,si 
     mov ah,0Fh 
     mov al,[ebx+si] 
     cmp al,'\0' 
     je .end 
     mov [gs:edi],ax 
     inc si 
loop: 
     sys_call 
    
    .end: 
     ret 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值