计算机常用编码介绍
编程中常用编码
-
ASCII
- 最早的最重要的最基本的一种英美文字的字符集
- 只使用低七位表示字符,剩余的128位留作扩展
- 采取顺序存储方式存储字符
-
ISO-8859-*
- 使用ASCII剩余的码位进行扩展
- ISO-8859-1专门对英语做的扩展tomcat->默认采用ISO-8859–1->UTF-8
- 西欧国家较多,各个国家在ASCII的基础上扩展形成了自己国家专用的编码,最终形成了ISO-8859-*系列
-
GB2312
- 国际简体字集
- 6763个简体汉字
-
BIG5
- 繁体字集
-
Unicode
- 简称UCS统一码
-
GBK(936)
- 简繁字集
- 包含GB2312和BIG5以及其他字符
- GBK是GB2312的超集,向下完全兼容GB2312
-
UTF-8[65001]万国码
- UTF-8是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。
- UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性较强
-
ASCII码表
- 常用的:0~9 A~Z a~z 对应的ASCII码分别为:4857,6590,97~122
- 数字本身连续,数字到大写字母不连续;大写字母本身连续,大写字母到小写字母不连续;小写字母本身连续。
乱码产生原因
-
计算机中文件的村春都是以二进制的形式保存的,在保存到硬盘上时,计算机会将内存中的文件,按照特定的格式[编码方式]转换为二进制文件,保存到硬盘中;
-
当文件再次打开时,计算机会把硬盘中的二进制文件加载到内存中、,按照特定的格式,重新编码成可读的普通文件;
-
重新编码时,系统会搜索当前系统中,对于不同后缀名文件的默认打开方式[每种打开方式包含的编码不一定相同],如果默认的打开方式中包含的编码方式与原编码格式相同,则文件可以正常打开,没有乱码
-
如果默认打开方式的编码方式和原文件不同,这时可以简单分为两种情况:
- 如果默认打开方式中的编码全部包含原文件的编码方式,则也可以正常打开
- 例如GBK[GB2312]
- 如果默认打开方式中的编程不包含,或者没有全部包含,则会出现乱码;
乱码的解决方式