java进阶打卡29

缓冲流练习

对文本的内容进行排序,按照(1,2,3…)顺序排序

分析:
    1. 创建一个HashMap集合对象,key:存储每个文件的序号(1,2,3....);value:存储每行的文本
    2. 创建字符缓冲输入流对象,构造方法中绑定字符输入流
    3. 创建字符缓冲输出流对象,构造方法中绑定字符输出流
    4. 使用字符缓冲输入流中的方法read/readLine,逐行读取文本
    5. 对读取到的文本进行切割,获取行中的序号和文本内容
    6. 把切割好的序号和文本的内容存储到HashMap集合中(key序号是有序的,会自动排序1,2,3,4...)
    7. 遍历HashMap集合,获取每一个键值对
    8. 把每一个键值对,拼接为一个文本行
    9. 把拼接好的文本,使用字符缓冲输出流中的方法write,写入到文件中
    10.释放资源

public static void main(String[] args) throws IOException {
	HashMap<String,String> map = new HashMap<>();
    BufferedReader br = new BufferedReader(new FileReader("day10-code\\in.txt"));
    BufferedWriter bw = new BufferedWriter(new FileWriter("day10-code\\out.txt"));
     
	String line;
    while((line = br.readLine()) != null){
    	String[] arr = line.split("\\.");
        map.put(arr[0],arr[1]);
	}

	for(String key:map.keySet()) {
		String value = map.get(key);
        line = key + "." + value;
        bw.write(line);
        bw.newLine(); // 写换行
	}

    bw.close();
    br.close();
}

字符编码和字符集

按照某种规则,将字符存储到计算机中,称为【编码】。
反之,将存储在计算机中的二进制数按照某种规则解析显示处理,称为【解码】。
比如说,按照A规则存储,同样按照A规则解析,那么就能显示正确的文本符号。反之,按照A规则存储,再按照B规则解析,就会导致乱码现象。

编码:字符(能看懂的)--> 字节(看不懂的)
解码:字节(看不懂的)--> 字符(能看懂得)

【字符编码】:就是一套自然语言的字符与二进制数之间的对应规则。
编码表:生活中文字和计算机中二进制的对应规则。

【字符集Charset】:也叫编码表,是一个系统支持的所有字符的集合,包括国家文字、标点符号、图像符号、数字等。
计算机要准确的存储和识别各种字符集符号,需要进行字符编码,一套字符集必然至少有一套字符编码。
ASCII字符集 <-- ASCII编码
GBK字符集<--GBK编码
Unicode字符集<--UTF8编码、UTF16编码、UTF32编码

【ASCII字符集】:基于拉丁字符的一套电脑编码系统,主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
基本的ASCII字符集,使用7位(bits)表示一个字符,共128字符。ASCII的扩展字符集使用8位表示一个字符,共256字符。

ISO-8859-1字符集:
拉丁码表,用于显示欧洲使用的语言,包括荷兰、丹麦、德语、意大利语、西班牙语等。
ISO-8859-1使用单字节编码,兼容ASCII编码。

GBxxx字符集:
GB就是国标的意思,是为了显示中文而设计的一套字符集。
GB2312:简体中文码表,包含了7000多个简体汉字。
【GBK】:最常用的中文码表,使用双字节编码方案,共收录了21001个汉字,完全兼容GB2312标准,同时支持繁体字汉字以及日韩汉字等。
GB18030:最新的中文码表。收录汉字70244个,采用多字节编码,每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字,同时支持繁体字汉字以及日韩汉字等。

Unicode字符集:
Unicode编码系统为表达任意语言的任意字符而设计,是业界的一种标准,也称为统一码、标准万国码。
它最多使用4个字节的数字来表达每个字母、符号、或者文字。有三种编码方案,UTF-8、UTF-16和UTF-32,最为常用的UTF-8编码。
【UTF-8编码】:是电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。互联网工程工作小组要求所有互联网协议都必须支持UTF-8编码。所以,我们开发Web应用,也要使用UTF-8编码。它使用一至四个字节为每个字符编码,编码规则:
1. 128个US-ASCII字符,只需一个字节编码。
2. 拉丁文等字符,需要二个字节编码。
3. 大部分常用字(含中文),使用三个字节编码。
4. 其他极少使用的Unicode辅助字符,使用四字节编码。

输出转换流OutputStreamWriter

FileReader可以读取IDE默认编码格式(UTF-8)的文件
FileReader读取系统默认编码(中文GBK)会产生乱码���

java.io.OutputStreamWriter extends Writer
OutputStreamWriter:是字符流通向字节流的桥梁:可使用指定的charset将要写入流中的字符编码成字节。(编码:把能看懂的变成看不懂的)

继承自父类的共性成员方法:
    - void write(int c) 写入单个字符。
    - void write(char[] cbuf) 写入字符数组。
    - void write(char[] cbuf, int off, int len) 写入字符数组的某一部分,off数组的开始索引,len写的字符个数。
    - void write(String str) 写入字符串。
    - void write(String str, int off, int len) 写入字符串的某一部分,off字符串的开始索引,len写的字符个数。
    - void flush() 刷新该流的缓冲。
    - void close() 关闭此流,但要先刷新它。
    
构造方法:
    OutputStreamWriter(OutputStream out) 创建使用默认字符编码的OutputStreamWriter。
    OutputStreamWriter(OutputStream out, String charsetName) 创建使用指定字符集的OutputStreamWriter。
    参数:
        OutputStream out:字节输出流,可以用来写转换之后的字节到文件中
        String charsetName:指定的编码表名称,不区分大小写,可以是utf-8/UTF-8,gbk/GBK,...不指定默认使用UTF-8
        
使用步骤:
1. 创建OutputStreamWrite对象,构造方法中传递字节输出流和指定的编码表名称
例如:	OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\utf_8.txt"),"utf-8");
		// OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\utf_8.txt")); // 不指定默认使用UTF-8
		// OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\gbk.txt"),"GBK");
2. 使用OutputStreamWrite对象中的方法write,把字符转换为字节存储到缓冲区中(编码)
例如:	osw.write("你好");
3. 使用OutputStreamWrite对象中的方法flush,把内存缓冲区中的字节刷新到文件中(使用字节流写字节的过程)
例如:	osw.flush();
4. 释放资源
例如:	osw.close();

输入转换流InputStreamReader

java.io.InputStreamReader extends Reader
InputStreamReader:是字节流通向字符流的桥梁:它使用指定的charset读取字节并将其解码为字符。(解码:把看不懂的变成能看懂的)

继承自父类的共性成员方法:
    int reader() 读取单个字符并返回。
    int read(char[] cbuf) 一次读取多个字符,将字符读入数组。
    void close() 关闭该流并释放与之关联的所有资源。
    
构造方法:
      InputStreamReader(InputStream in) 创建一个使用默认字符集的InputStreamReader。
      InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的InputStreamReader。
      参数:
           InputStream in:字节输入流,用来读取文件中保存的字节
           String charsetName:指定的编码表名称,不区分大小写,可以是utf-8/UTF-8,gbk/GBK,...不指定默认使用UTF-8
           
使用步骤:
1. 创建InputStreamReader对象,构造方法中传递字节输入流和指定的编码表名称
例如:	InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\utf_8.txt"),"UTF-8");
		// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\utf_8.txt")); // 不指定默认使用UTF-8
		// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\gbk.txt"),"GBK");
2. 使用InputStreamReader对象中的方法read读取文件
例如:	int len = 0;
        while((len = isr.read()) != -1){
            System.out.println((char)len);
        }
3. 释放资源
例如:	isr.close();

注意事项:构造方法中指定的编码表名称要和文件的编码相同,否则会发生乱码
例如:	// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\gbk.txt"),"UTF-8"); // ???

转换流练习

转换文件编码:将GBK编码的文本文件,转换为UTF-8编码的文本文件。

分析:
    1. 创建InputStreamReader对象,构造方法中传递字节输入流和指定的编码表名称GBK
    2. 创建OutputStreamWriter对象,构造方法中传递字节输出流和指定的编码表名称UTF-8
    3. 使用InputStreamReader对象中的方法read读取文件
    4. 使用OutputStreamWriter对象中的方法write,把读取的数据写入到文件中
    5. 释放资源

public static void main(String[] args) throws IOException {
	InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\我是GBK格式的文本.txt"),"GBK");
	OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\我是UTF_8格式的文本.txt"),"UTF-8");
	
    int len = 0;
    while((len = isr.read()) != -1){
    	osw.write(len);
    }
    
    osw.close();
    isr.close();
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值