字符集编码问题

一张图说明字符集之间关系

针对于utf-8来说一下,他是unicode的一种转换格式码,他是隶属于unicode的 ,只不过呢,他是变长的unicode编码

简单说一下计算机汉字存储

我用百读搜了一下啊

 按照unicode标准转换成相应的码存储,那大致是一个什么样子呢,首先计算机会对汉字进行分区处理,大致如下

 每个汉字及符号用可两个字节来表示:

再来说一下,如果一个文档里面存放的汉字和英文,我们按照unicode保存或者utf-8保存,为什么英文不出现问题?我们知道上面主要解决中文的存储问题

 我们看一下unicode的英文字母编码

上面的t 

十六制74变成十进制就是116

然后看看ascii码对应的十进制也是一样的

也就是说 ,unicode是兼容了ascii码的127个字符的。 

java中文件读取乱码问题

假设如下一个中文文本

 它的内存分析如下 

 然后看一下我们读取代码:必须保证文件编码类型,读取类型,写入类型都一致,就不会出现乱码问题

//采用字符流来读取文本操作
    public static void copyText(File srcFile,File destFile) {
        InputStreamReader fr = null;
        OutputStreamWriter fw = null;
        try {
            fr = new InputStreamReader(new FileInputStream(srcFile),"gbk");
          //  fw = new FileWriter(destFile);
            fw = new OutputStreamWriter(new FileOutputStream(destFile),"gbk");
            char[] buff = new char[1024];
            int len = 0;
            while((len = fr.read(buff)) != -1) {
                System.out.println("读取到的长度:" + len);
                fw.write(buff,0,len);
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                fr.close();
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                try {
                    fw.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值