Java-----IO流【字符集编码介绍】

最新推荐文章于 2023-04-17 08:35:17 发布

AMT_木子

最新推荐文章于 2023-04-17 08:35:17 发布

阅读量283

点赞数 1

分类专栏： Java基础文章标签： java 后端

本文链接：https://blog.csdn.net/AMT_MUZI/article/details/115378530

版权

Java基础专栏收录该内容

32 篇文章 1 订阅

订阅专栏

字符集编码介绍

转换流

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BM7zfv6q-1617267516798)(D:\学习\tupian\字符集编码介绍\tu1.png)]$

源或者目标对应的设备是字节流，但操作的是文本数据，可以用转换流来做桥梁。
一旦操作文本需要具体的指定编码表时，必须使用转换流。

字符编码

计算机只能处理数字，如果要处理文本，就必须先把文本转化为数字才能处理。

最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。

联合通知

国家语言文字工作委员会、国家教育委员会关于发布《现代汉语常用字表》的联合通知（1988年1月26日）

为了适应语文教学及其他方面的需要，特制订《现代汉语常用字表》，现予发布。

《现代汉语常用字表》分常用字（2500字）和次常用字（1000字）两个部分。

经计算机抽样检测，常用字在语科中的覆盖率达到99.48%，掌握了常用字就达到了利用汉语的基本要求。

但是要处理中文显然一个字节是不够的（一个字节最多处理255个汉字），至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定GB2312编码，用来把中文编进去。

然后呢，全世界有上百种语言，日本把日文遍道Shift_JIS里，韩国把韩文编到Euc_kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。

该如何解决乱码问题呢？

因此，Unicode应运而生。Unicode把所有的语言都统一到一套编码里，这样就不会再有乱码问题了。

ASCII编码和Unicode编码的区别：

ASCII编码是1个字节
Unicode编码通常是2个字节，如果要用到非常偏僻的字符，就需要4个字节

举例：

字母A用ASCII编码是十进制的65，二进制的01000001

字母A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001

汉字中已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101

新的问题又出现了：如果统一成Unicode编码，乱码的问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍多存储空间，在存储和传输上就十分不划算。

所以，有出现了把Unicode编码转化为可变长编码的UTF-8编码。UTF-8编码。UTF-8编码规则：

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节
常用的英文字母被编码成1个字节
汉字通常是3个字节
只有很生僻的字符才会被编码成4-6个字节

如果你要传输文本包含大量英文字符，用UTF-8编码就能节省空间。

汉字中用UTF-8编码是十进制的14989485，二进制的11100100 10111000 10101101（3个字节）

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

乱码问题

使用GBK编码存储如下内容到a.txt，使用UTF-8编码编写CharsetDemo.jave类，Eclipse工作区默认编码也为UTF-8

大家好（这是ANSI编码下的）

// 这里使用的是UTF-8编码
public class CharsetDemo{
    public static void main(String[] args) throws IOException{
        BufferedReader br = new BufferedReader(new FileReader("a.txt"));
        // 输出会乱码
        System.out.println(br.readLine());
        br.close();
    }
}
// 输出
//   �����˿�ʼ

AMT_木子

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java-----IO流【字符集编码介绍】

字符集编码介绍转换流源或者目标对应的设备是字节流，但操作的是文本数据，可以用转换流来做桥梁。一旦操作文本需要具体的指定编码表时，必须使用转换流。字符编码计算机只能处理数字，如果要处理文本，就必须先把文本转化为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是429
复制链接

扫一扫