java进阶打卡29

最新推荐文章于 2024-07-16 16:14:54 发布

bubupp

最新推荐文章于 2024-07-16 16:14:54 发布

阅读量82

点赞数

分类专栏： Java进阶文章标签： java 编程语言

本文链接：https://blog.csdn.net/weixin_42411963/article/details/109687059

版权

Java进阶专栏收录该内容

40 篇文章 0 订阅

订阅专栏

缓冲流练习

对文本的内容进行排序，按照(1,2,3…)顺序排序

分析：
    1. 创建一个HashMap集合对象，key：存储每个文件的序号(1,2,3....)；value：存储每行的文本
    2. 创建字符缓冲输入流对象，构造方法中绑定字符输入流
    3. 创建字符缓冲输出流对象，构造方法中绑定字符输出流
    4. 使用字符缓冲输入流中的方法read/readLine，逐行读取文本
    5. 对读取到的文本进行切割，获取行中的序号和文本内容
    6. 把切割好的序号和文本的内容存储到HashMap集合中（key序号是有序的，会自动排序1,2,3,4...）
    7. 遍历HashMap集合，获取每一个键值对
    8. 把每一个键值对，拼接为一个文本行
    9. 把拼接好的文本，使用字符缓冲输出流中的方法write，写入到文件中
    10.释放资源

public static void main(String[] args) throws IOException {
	HashMap<String,String> map = new HashMap<>();
    BufferedReader br = new BufferedReader(new FileReader("day10-code\\in.txt"));
    BufferedWriter bw = new BufferedWriter(new FileWriter("day10-code\\out.txt"));
     
	String line;
    while((line = br.readLine()) != null){
    	String[] arr = line.split("\\.");
        map.put(arr[0],arr[1]);
	}

	for(String key:map.keySet()) {
		String value = map.get(key);
        line = key + "." + value;
        bw.write(line);
        bw.newLine(); // 写换行
	}

    bw.close();
    br.close();
}

字符编码和字符集

按照某种规则，将字符存储到计算机中，称为【编码】。
反之，将存储在计算机中的二进制数按照某种规则解析显示处理，称为【解码】。
比如说，按照A规则存储，同样按照A规则解析，那么就能显示正确的文本符号。反之，按照A规则存储，再按照B规则解析，就会导致乱码现象。

编码：字符（能看懂的）--> 字节（看不懂的）
解码：字节（看不懂的）--> 字符（能看懂得）

【字符编码】：就是一套自然语言的字符与二进制数之间的对应规则。
编码表：生活中文字和计算机中二进制的对应规则。

【字符集Charset】：也叫编码表，是一个系统支持的所有字符的集合，包括国家文字、标点符号、图像符号、数字等。
计算机要准确的存储和识别各种字符集符号，需要进行字符编码，一套字符集必然至少有一套字符编码。
ASCII字符集 <-- ASCII编码
GBK字符集<--GBK编码
Unicode字符集<--UTF8编码、UTF16编码、UTF32编码

【ASCII字符集】：基于拉丁字符的一套电脑编码系统，主要包括控制字符（回车键、退格、换行键等）和可显示字符（英文大小写字符、阿拉伯数字和西文符号）。
基本的ASCII字符集，使用7位（bits）表示一个字符，共128字符。ASCII的扩展字符集使用8位表示一个字符，共256字符。

ISO-8859-1字符集：
拉丁码表，用于显示欧洲使用的语言，包括荷兰、丹麦、德语、意大利语、西班牙语等。
ISO-8859-1使用单字节编码，兼容ASCII编码。

GBxxx字符集：
GB就是国标的意思，是为了显示中文而设计的一套字符集。
GB2312：简体中文码表，包含了7000多个简体汉字。
【GBK】：最常用的中文码表，使用双字节编码方案，共收录了21001个汉字，完全兼容GB2312标准，同时支持繁体字汉字以及日韩汉字等。
GB18030：最新的中文码表。收录汉字70244个，采用多字节编码，每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字，同时支持繁体字汉字以及日韩汉字等。

Unicode字符集：
Unicode编码系统为表达任意语言的任意字符而设计，是业界的一种标准，也称为统一码、标准万国码。
它最多使用4个字节的数字来表达每个字母、符号、或者文字。有三种编码方案，UTF-8、UTF-16和UTF-32，最为常用的UTF-8编码。
【UTF-8编码】：是电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。互联网工程工作小组要求所有互联网协议都必须支持UTF-8编码。所以，我们开发Web应用，也要使用UTF-8编码。它使用一至四个字节为每个字符编码，编码规则：
1. 128个US-ASCII字符，只需一个字节编码。
2. 拉丁文等字符，需要二个字节编码。
3. 大部分常用字（含中文），使用三个字节编码。
4. 其他极少使用的Unicode辅助字符，使用四字节编码。

输出转换流OutputStreamWriter

FileReader可以读取IDE默认编码格式（UTF-8）的文件
FileReader读取系统默认编码（中文GBK）会产生乱码��

java.io.OutputStreamWriter extends Writer
OutputStreamWriter：是字符流通向字节流的桥梁：可使用指定的charset将要写入流中的字符编码成字节。（编码：把能看懂的变成看不懂的）

继承自父类的共性成员方法：
    - void write(int c) 写入单个字符。
    - void write(char[] cbuf) 写入字符数组。
    - void write(char[] cbuf, int off, int len) 写入字符数组的某一部分，off数组的开始索引，len写的字符个数。
    - void write(String str) 写入字符串。
    - void write(String str, int off, int len) 写入字符串的某一部分，off字符串的开始索引，len写的字符个数。
    - void flush() 刷新该流的缓冲。
    - void close() 关闭此流，但要先刷新它。
    
构造方法：
    OutputStreamWriter(OutputStream out) 创建使用默认字符编码的OutputStreamWriter。
    OutputStreamWriter(OutputStream out, String charsetName) 创建使用指定字符集的OutputStreamWriter。
    参数：
        OutputStream out：字节输出流，可以用来写转换之后的字节到文件中
        String charsetName：指定的编码表名称，不区分大小写，可以是utf-8/UTF-8,gbk/GBK,...不指定默认使用UTF-8
        
使用步骤：
1. 创建OutputStreamWrite对象，构造方法中传递字节输出流和指定的编码表名称
例如：	OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\utf_8.txt"),"utf-8");
		// OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\utf_8.txt")); // 不指定默认使用UTF-8
		// OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\gbk.txt"),"GBK");
2. 使用OutputStreamWrite对象中的方法write，把字符转换为字节存储到缓冲区中（编码）
例如：	osw.write("你好");
3. 使用OutputStreamWrite对象中的方法flush，把内存缓冲区中的字节刷新到文件中（使用字节流写字节的过程）
例如：	osw.flush();
4. 释放资源
例如：	osw.close();

输入转换流InputStreamReader

java.io.InputStreamReader extends Reader
InputStreamReader：是字节流通向字符流的桥梁：它使用指定的charset读取字节并将其解码为字符。（解码：把看不懂的变成能看懂的）

继承自父类的共性成员方法：
    int reader() 读取单个字符并返回。
    int read(char[] cbuf) 一次读取多个字符，将字符读入数组。
    void close() 关闭该流并释放与之关联的所有资源。
    
构造方法：
      InputStreamReader(InputStream in) 创建一个使用默认字符集的InputStreamReader。
      InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的InputStreamReader。
      参数：
           InputStream in：字节输入流，用来读取文件中保存的字节
           String charsetName：指定的编码表名称，不区分大小写，可以是utf-8/UTF-8,gbk/GBK,...不指定默认使用UTF-8
           
使用步骤:
1. 创建InputStreamReader对象，构造方法中传递字节输入流和指定的编码表名称
例如：	InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\utf_8.txt"),"UTF-8");
		// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\utf_8.txt")); // 不指定默认使用UTF-8
		// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\gbk.txt"),"GBK");
2. 使用InputStreamReader对象中的方法read读取文件
例如：	int len = 0;
        while((len = isr.read()) != -1){
            System.out.println((char)len);
        }
3. 释放资源
例如：	isr.close();

注意事项：构造方法中指定的编码表名称要和文件的编码相同，否则会发生乱码
例如：	// InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\gbk.txt"),"UTF-8"); // ???

转换流练习

转换文件编码：将GBK编码的文本文件，转换为UTF-8编码的文本文件。

分析：
    1. 创建InputStreamReader对象，构造方法中传递字节输入流和指定的编码表名称GBK
    2. 创建OutputStreamWriter对象，构造方法中传递字节输出流和指定的编码表名称UTF-8
    3. 使用InputStreamReader对象中的方法read读取文件
    4. 使用OutputStreamWriter对象中的方法write，把读取的数据写入到文件中
    5. 释放资源

public static void main(String[] args) throws IOException {
	InputStreamReader isr = new InputStreamReader(new FileInputStream("day10-code\\我是GBK格式的文本.txt"),"GBK");
	OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("day10-code\\我是UTF_8格式的文本.txt"),"UTF-8");
	
    int len = 0;
    while((len = isr.read()) != -1){
    	osw.write(len);
    }
    
    osw.close();
    isr.close();
}

bubupp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java进阶打卡29

缓冲流练习对文本的内容进行排序，按照(1,2,3…)顺序排序分析： 1. 创建一个HashMap集合对象，key：存储每个文件的序号(1,2,3....)；value：存储每行的文本 2. 创建字符缓冲输入流对象，构造方法中绑定字符输入流 3. 创建字符缓冲输出流对象，构造方法中绑定字符输出流 4. 使用字符缓冲输入流中的方法read/readLine，逐行读取文本 5. 对读取到的文本进行切割，获取行中的序号和文本内容 6. 把切割好的序号和文本的内容存
复制链接

扫一扫