先来说说最近学习时候接触的一些编码方式:
1.首先当然是最经典的ascii码
2.big5 繁体中文
3.gb2312 简体中文
4.gbk 中文编码扩展 包含简体中文和繁体中文
4.utf-8 世界通用的编码
首先遇到的问题是曾经在写HTML+CSS的时候head便签里总会有这么一句:
<meta charset="utf-8">
有一天去掉了之后发现在网页上出现乱码 后来查阅资料才发现 写网页的时候用的编码方式是gb2312 而网页读取时是用的utf-8
出现乱码的原因是 这两种不同的编码方式 对应的每一个字符对应的字节数都不同 所以读取时按照各自的读取字节数读取 自然造成乱码
然后上网查阅资料 发现在本机上操作时都采用Unicode编码 相关资料如下:
而Unicode与utf-8有所区别 知乎上有一篇文解释的个人认为很清楚 这里给出链接
而在计算机中 本机在用文字编辑器 如记事本中 使用的Unicode编码
而当这些内容需要上传到网络或者写入到磁盘中去时 计算机将以utf-8的编码方式将之写入
这里写入一点个人想法 欢迎大神指教
个人的想法是 应该是以标准化方式写入 而为了可移植性和文件传阅 所以上文提到的情况下将之装换为utf-8
总之之前一直迷惑的问题 在这里终于算透彻理解了字符编码的一些规则和方式 在这里做一下简略的笔记