名词解释
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)
基于常用英文字符
计算机处理时都是以二进制码的形式出现
这种二进制码的集合就是ASCII码
每个ASCII码与一个8位(bit)二进制数对应,最高位置使用0来表示
ASCII码是当今最通用的单字节编程系统
GB2312(国标2312)
中华人民共和国国家汉字信息交换编码
主要用于给每一个汉字指定相应的数字,也就是进行编码
一个中文字符占两个字节,为了和ASCII区别,将中文字符每一个字节的最高位置使用1来表示
GBK(国标扩展)
除了兼容GB2312外,还兼容繁体中文,生僻字和许多符号进行编码
ISO-8859-1
是西方国家所使用的字符编码集,是一种单字节的字符集,而英文只用了其中数字小于128的部分
Unicode
通用的字符集,对所有语言采用2个字节表示,对于英文字符采用前面加0字符
如"a"ASCII码为0X61,Unicode码为0x00
在internet上传效率低(英文字符前面增加了0,传送了一些没有必要的数据)
UTF-8
可以表示世界上所有的文字
UTF-8是一个不等长的(可以由1个字节表示也可以由2个字节表示)
汉字使用3个字节
获取系统字符集
package com.itlwc;
import java.nio.charset.Charset;
import java.util.Iterator;
import java.util.Set;
import java.util.SortedMap;
/**
* 获取系统所有字符集
*/
public class MyCharset {
public static void main(String[] args) {
SortedMap<String, Charset> map = Charset.availableCharsets();
Set<String> set = map.keySet();
Iterator<String> ite = set.iterator();
while (ite.hasNext()) {
String key = ite.next();
Charset value = map.get(key);
System.out.println(key + "--->" + value);
}
}
}