Java基础学习总结：IO之（三）常用的字符集、记事本BOM头

最新推荐文章于 2022-05-25 16:10:53 发布

Vaingloryss

最新推荐文章于 2022-05-25 16:10:53 发布

阅读量293

点赞数

分类专栏： Java基础学习总结

本文链接：https://blog.csdn.net/Vaingloryss/article/details/98775004

版权

Java基础学习总结专栏收录该内容

35 篇文章 2 订阅

订阅专栏

一、常见的编码格式

（1）GB2312字符集

作用：国家简体中文字符集，兼容ASCII

位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。

范围：高字节从A1-A7，低字节从A1到FE。将高字节和低字节分别加上0xA0即可得到编码。

（2）GBK字符集

作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312.

位数：使用2个字节表示，可表示21886个字符。

范围：高字节从81到FE，低字节从40到FE。

很多中文操作系统上会出现 ANSI 字符集，其实它就是GBK编码。

（3）GB18030字符集

作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。

位数：它采用变字节表示（1ASCII, 2,4字节）。可表示27484个文字。

范围：1字节从00到7F；2字节高字节从81到FE，低字节从40到7E和80到FE；4字节第一三字节从81到FE，第二四字节从30到39。

（4）BIG5字符集

繁体中文编码，主要在台湾地区使用。

（5）Unicode：

UTF-8：Unicode编码的一种，Unicode用一些基本的保留字符制定了三套编码方式，它们分别为UTF-8，UTF-16，UTF-32。在 UTF-8中，字符是以8位序列来编码的，用一个或两个或三个字节来表示一个字符。这种方式的最大好处是 UTF-8 保留了 ASCII 字符的编码作为它的一部分。UTF-8俗称“万国码”，可以同屏显示多语种，一个汉字占用3字节。为了做到国际化，网页尽可能采用UTF-8编码。

在 UTF-8 中，英文字母和数字占一个字节，汉语字符占三个字节。在 UTF-16 中不论是英语字符还是汉语字符或者是其他，通通都占两个字节，因此，UFT-16 比较浪费空间。UTF-32中每个字符占 4 个字节。