一、字符集
字符编码:一套自然语言的字符与二进制之间的规则。
字符集:也叫编码表,是一个系统支持的所有字符的集合,包括各个国家的文字、标点符号、图形符号、数字等。
计算机要准确的存储和识别各种字符集合符号,需要进行字符编码,一套字符集必然至少有一套字符编码,常见的字符有 ASCII 字符集 GBK 字符集 Unicode 字符集合。
Unicode:UTF8 UTF16 UTF32
ASCII字符集:美国信息交换标准代码,基于拉丁字母的一套电脑编码系统,用于显示现代英语,主要包括控制字符(回车 退格 换行等),可以显示字符(英文大小字符,阿拉伯数字西文符号)。
ISO-8859-1:拉丁码表,用于显示欧洲使用语言,荷兰、丹麦、意大利、德育、西班牙语等;
GBxxx字符:GB就是国标的意思,是为了显示中文而设计的一套字符集;
GB2312:简体中文码表,7000多个简体中文;
GBK:最常用的中文码表,是在GB2312的标准上扩展了规范,使用了双字节码的方案,21003个汉字,21886个汉字和图形,支持繁体字;
GB18030:最新的中文码表,收录汉字70244个,采用多字节编码,每个字由1个2个或4个字节组成,支持中国国内,少数民族的汉字,同时支持繁体汉字以及日韩汉文字。
Unicode字符集:
Unicode编码系通为表达任意字符而设计的,是业界的一种标准,也称之为统一码、标准万国码;
最多使用4个字节的数字来表达每个字符、符号或者文字,有三种编码方案UTF-8、UTF-16、UTF-32,最常用的是UTF-8;
拉丁文等字符,需要二个字节码,大部分常用文字(包括中文)使用三个字节编码。
二、文件
可以使用一个文件对象来创建一个输入流对象来读取文件
// 创建File 类的对象 通过构造函数 传入了 文件 或文件夹的路径
File file = new File("D:\\java\\A\\test.txt");
File类常用方法:
File file = new File("D:\\java\\A\