手持两把锟斤拷, 口中疾呼烫烫烫, 脚踏千朵屯屯屯, 笑看万物锘锘锘

锟斤拷的来历 GBK与UTF-8   

Unicode和老编码体系的转化进程中,一定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。

那么U+FFFD的UTF-8编码出来,恰恰是 "\xef\xbf\xbd"。假如这个"\xef\xbf\xbd",反复屡次,例如 "\xef\xbf\xbd\xef\xbf\xbd",然后放到GBK/CP936/GB2312/GB18030的环境中显示的话,一个汉字2个字节,最终的后果就是:锟斤拷""锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)


#include<stdio.h>  
int main()  
{  
    char *s = "\xef\xbf\xbd\xef\xbf\xbd";  
    printf("%s\n", s);  
    return 0;  
}  

烫烫烫的来历 vc++:

在windows平台下,ms的编译器(也就是vc带的那个)在 Debug 形式下,会把未初始化的栈内存全部填成 0xcc,用字符串来看就是"烫烫烫烫烫烫烫",也就是说呈现了烫烫烫,赶忙反省初始化吧

#include<stdio.h>
int main()
{

    char* s;
    print(" %s\n",s);
    return 0;
}  

屯屯屯的来历 VC:

同上,未初始化的堆内存全部填成0xcd,字符串看就是"屯屯屯屯屯屯屯屯"。

#include<stdio.h>    
#include<malloc.h>    
int main()  
{  
    char *s;  
    s = (char *)malloc(16);  
    printf(" %s", s);  
    free(p);  
    return 0;  
}

锘的来历 VC HTML:

微软在 UTF-8 文件头部加上了 EF BB BF BOM 标志。在不支持 BOM 的环境下对其停止 UTF-8 解码失掉"锘"字。

#include<stdio.h>  
int main()  
{  
    char *s = "\xef\xbb";  
    printf("%s\n", s);  
    return 0;  
}  

 

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值