编码方式
(1)ANSI(American National Standard Institite)
不同地区扩展编码方式的统称。
1)GBK编码——简体中文Windows操作系统
一个字符用两个字节存储
2)ASCII编码——英文Windows操作系统
ASCII(American Standard Code for Information Interchange)
一个字符用一个字节存储,高位为0,低7位用来编码。
所以总共可以编码128个字符,剩下128个作为保留。
(2)Unicode是一套字符集,而不是字符编码
字符集定义了字符和二进制的对应关系。
字符编码规定了如何将字符的编号存储到计算机中。
其对应的编码方案有:UTF-8、UTF-16、UTF-32
UTF–8编码方式:
1)如果只有一个字节,兼容ASCII
2)如果有多个字节,那么第一个字节从最高位开始,连续有几个比特位的 值为1,就使用几个字节编码,剩下的字节均以10开头。
string和wstring的区别,本质就是char和wchar_t的区别
窄字符(多字节),一般用于满足ASCII编码,一个单元一个字节(char)
宽字符,一般用于满足UNICODE,一个单元两个字节(wchar_t)
std::string str = “你好”;
std::cout << str[0] << std::endl; //输出,乱码
std::wcout.imbue(std::locale(“chs”)); //chs表中国,使用本地化解析编码输出
std::wstring wstr = L"你好"; //必须加L表宽字符
std::wcout << wstr[0] << std::endl; //输出,你
我是江鸟,即将迈向社会的程序猿,欢迎交流