概述
编码格式还与系统环境有关,比如windows下换行是\r\n,在linux或mac下是\n。
具体互相转换方式见参考资料。
ANSI
英文字符用一个字节,汉字字符有两个字节。以\0结束。常用于txt文件。
Unicode
每个字符两个字节,以两个连续的\0结束。
常被定义为typedef unsigned short wchar_t。所以有时会见到char无法转换为unsigned short之类的错误。
UTF8
utf8是unicode的一种压缩格式,因为unicode中的英文字符浪费了资源。所以在utf8中,英文字符为一个字节,汉字字符为三个字节。
所以中文网页一般使用ansi,外文网页一般使用utf8.