【Java基础】中文在不同字符集占多少字节

常见的有两种字符集:

1. Unicode标准的字符集,范围是0~2^16,又分为:

   a. UTF-16字符集,一个汉字字符用2个或4个字节表示。 

   b. UTF-8变长字符集,所有字符用1~4个字节表示,一个汉字字符用3~4个字节表示。

2. GBK字符集:汉字用2个字符表示。

import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import java.nio.charset.Charset;

public class ReaderTest {
    public static void main(String[] args) {
        Reader reader = null;
        try {
            reader = new FileReader("a.txt"); //获取一个读取a.txt文件的字符流
            char a = (char)reader.read(); // 读一个中文字符
            String b = String.valueOf(a); // 字符出转换成字符串,方便获取字符的字节长度
            int le = b.getBytes().length; // 默认字符集为UTF-8时,长度为3
            int le2 = b.getBytes(StandardCharsets.UTF_16).length; // 默认字符集为UTF-16时,长度为4
            int le3 = b.getBytes("GBK").length; // 默认字符集为GBK时,长度为2
            System.out.println(le);
            System.out.println(le2);
            System.out.println(le3);

            // 两种获取字符集的方式
            System.out.println(Charset.defaultCharset().name());
            System.out.println(System.getProperties().get("file.encoding"));

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                reader.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值