一直来对字符集和编码的概念比较模糊。
这几天经过认真的学习和同学的交流,终于有一个初步的认识。
1. 明确概念:
字符集是 字符的集合。 比如gb2312 是简体中文字符集 是中文汉字的集合;Unicode 字符集是全球所有字符的集合...
编码是一种规则,而不是一个数字编码。比如utf-8是对unicode 的标准编码,GBK 既可指字符集也指编码
2.存储和读取:
只要是以数字表示的字节 都是以某种编码方式进行处理后的字符。
比如“中”用GB2312编码方式存储的时候存为 0x4E2D ,而用utf-8编码 存储的是:ox423424 (瞎掰的哦)
如果GB2312编码存的时候,长度为6个字节,代表3个中文字符,用utf-8读取的时候可能会解释为2个字符,因为每个中文字符3个字节。
https://p-blog.csdn.net/images/p_blog_csdn_net/hanxuema2008/EntryImages/20081117/Snap2.jpg