目录
一.字节和编码
字节是二进制数据的单位。一个字节通常8位长(换成16进制,两位长)。
1B(byte,字节)= 8 bit int型一般占4个字节
gbk 中文占2个字节,英文1个
utf-8 中文占3个字节,英文1个
utf-16be 中文占2个字节,英文2个
String str = "慕课ABC";
byte[] bytes = str.getBytes("gbk");
//字符串换成字节的编码要和字节换成字符串的编码一致
String str2 = new String(bytes,"gbk");
所以,一个项目输入中文,字节编码就是项目默认的编码,放到其他编码的项目上会出现乱码。
ASCII码用一个字节就能表示,而其他国家的文字一个字节不够。
ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符(即ASCII码)。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。
中国拓展ASCII码,诞生了GB2312编码,GBK编码。韩国拓展ASCII码,诞生了EUC-KR编码,很多国家都跟自己的文字拓展,统称为ANSI编码。
中国,韩国,美国都用ANSI,但是互相传输会出现乱码,所以诞生了Unicode编码,全世界的文字全部统一编码,比如UTF-8,UTF-16。
二.File类
java.io.File类用于表示文件(目录)
File类只用于表示文件(目录)的信息(名称、大小等),不能用于文件内容的访问
File file = new File("d:\\study\\javaio");
String[] files1 = file.list(); //返回子的名称
File[] files2 = file.listFiles(); //返回目录或文件的抽象
//直接输出file是绝对路径
三.字节流
InputStream抽象了应用程序读取数据的方式 OutputStream抽象了应用程序写出数据的方式。
FileInputStream in = new FileInputStream(srcFile) //具体实现了在文件上读取数据
FileOutputStream out = new FileOutputStream(destFile); //实现了向文件中写出byte数据的方法
int b = in.read(); //读取一个字节无符号填充到int低八位,-1是EOF
byte[] buf = new byte[8*1024];
in.read(byte[] buf) //字节批量读取
in.read(byte[] buf,int start,int size)
out.write(int b) //写出一个byte到流,b的低8位
out.write(byte[] buf) //将buf字节数组都写入到流
out.write(byte[] buf,int start,int size)
BufferedInputStream bis = new BufferedInputStream(
new FileInputStream(srcFile));
BufferedOutputStream bos = new BufferedOutputStream(
new FileOutputStream(destFile));
//这两个流类位IO提供了带缓冲区的操作,一般打开文件进行写入或读取操作时,都会加上缓冲,这种流模式提高了IO的性能
while((c = bis.read())!=-1){
bos.write(c);
bos.flush();//写完后要flush
}
四.字符流
java的文本(char)是16位无符号整数,是字符的unicode编码(双字节编码)
InputStreamReader 完成byte流解析为char流,按照编码解析
OutputStreamWriter 提供char流到byte流,按照编码处理
FileInputStream in = new FileInputStream("D:\\study\\imooc1.txt");
InputStreamReader isr = new InputStreamReader(in,"utf-8");
FileOutputStream out = new FileOutputStream("D:\\study\\imooc2.txt");
OutputStreamWriter osw = new OutputStreamWriter(out,"utf-8");
字符流的过滤器
BufferedReader ---->readLine 一次读一行
BufferedWriter/PrintWriter ---->写一行
五.序列化和反序列化
对象序列化,就是将Object转换成有规则的byte序列,反之叫对象的反序列化
序列化就是有格式的二进制数据,对象的数据是要有意义的,有格式的,比例对象里面有属性,属性有类型。这个不是简单的二进制数据能表示的,需要加上格式。
序列化接口(Serializable):对象必须实现序列化接口 ,才能进行序列化,否则将出现异常,这个接口,没有任何方法,只是一个标准。
transient关键字:不会被序列化 ArrayList源码中,数组a[]加上transient关键字,a[]长度为100,不需要默认序列化,则只需自己在数组中存了多少数,就自己序列化多少个。