各种字符集编码

最新推荐文章于 2024-07-09 16:17:35 发布

flowercoder#

最新推荐文章于 2024-07-09 16:17:35 发布

阅读量1.3k

点赞数 1

分类专栏：学习 java学习字符集编码文章标签： java 个人开发经验分享

本文链接：https://blog.csdn.net/huahua66123/article/details/120709793

版权

学习同时被 3 个专栏收录

8 篇文章 4 订阅

订阅专栏

java学习

2 篇文章 0 订阅

订阅专栏

字符集编码

1 篇文章 0 订阅

订阅专栏

各种字符集

由于本人在学习过程中，经常被不同类型的编码折磨故学习总结了一波。现在最常见的是utf-8，同时在不同编辑器打开时utf-8的注释会被翻译成乱码，所以让我很苦恼，不说了，开始总结。

Unicode字符集

Unicode字符集（简称为UCS）,国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与 ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留 20249个，共计65534个。Unicode编码后的大小是一样的.例如一个英文字母 “a” 和　一个汉字 “好”，编码后都是占用的空间大小是一样的，都是两个字节！

UNICODE字符集有多个编码方式，分别是UTF-8，UTF-16，UTF-32和UTF-7编码。

UTF-8（最常用的字符集）

TF-8（8位元，Universal Character Set/Unicode Transformation Format）是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而且其编码中的第一个字节仍与ASCII相容，使得原来处理ASCII字符的软件无须或只进行少部分修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。

UTF-8编码规则：如果只有一个字节则取值为\x00-\x7F。其余字节按长度进行以下拓展：

UTF-8由4种编码方式实现，即UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4。

在这里插入图片描述

UTF-16

UTF-16是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 “storage format”）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。

编码模式：UTF-16的大尾序和小尾序储存形式都在用。一般来说，以Macintosh制作或储存的文字使用大尾序格式，以Microsoft或Linux制作或储存的文字使用小尾序格式。

UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节（2字节）储存，但UTF-16却无法兼容于ASCII编码。

base64（网络传输）

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，Base64就是一种基于64个可打印字符来表示二进制数据的方法。

Base64编码是从二进制到字符的过程，可用于在HTTP环境下传递较长的标识信息（即传输一些网络文件，图片，视频等）。采用Base64编码具有不可读性，需要解码后才能阅读。

Base64由于以上优点被广泛应用于计算机的各个领域，然而由于输出内容中包括两个以上“符号类”字符（+, /, =)，不同的应用场景又分别研制了Base64的各种“变种”。为统一和规范化Base64的输出，Base62x被视为无符号化的改进版本。

Base64的索引与对应字符的关系如下表所示：

在这里插入图片描述

Java中实现Base64：

package com.first;
 
import org.junit.Test;
 
import java.io.UnsupportedEncodingException;
import java.util.Base64;
 
public class Test {
 
    @Test
    public void test() throws UnsupportedEncodingException {
        // 编码
        String encode = Base64.getEncoder().encodeToString("So".getBytes("UTF-8"));
        System.out.println(encode);
        // 解码
        byte[] decode = Base64.getDecoder().decode(encode);
        System.out.println(new String(decode, "UTF-8"));
    }
 
}

GBK字符集（与utf-8转换时，中文会出现乱码）

GBK编码(Chinese Internal Code Specification)是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。gbk编码能够用来同时表示繁体字和简体字，而gb2312只能表示简体字，gbk是兼容gb2312编码的。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字 21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK，通过 GBK与UCS之间一一对应的码表与底层字库联系。
英文名：Chinese Internal Code Specification

中文名：汉字内码扩展规范1.0版
双字节编码，GB2312-80的扩充，在码位上和GB2312-80兼容
范围：8140~FEFE（剔除xx7F）共23940个码位
包含21003个汉字，包含了ISO/IEC 10646-1中的全部中日韩汉字
作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。
位数：使用2个字节表示，可表示21886个字符。
范围：高字节从81到FE，低字节从40到FE。

ASCII

ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年，最后一次更新则是在1986年，到目前为止共定义了128个字符。

常见ASCII码的大小规则：0_9<AZ<a~z。

1）数字比字母要小。如 “7”<“F”；

2）数字0比数字9要小，并按0到9顺序递增。如 “3”<“8” ；

3）字母A比字母Z要小，并按A到Z顺序递增。如“A”<“Z” ；

4）同个字母的大写字母比小写字母要小32。如“A”<“a” 。

几个常见字母的ASCII码大小： “A”为65；“a”为97；“0”为 48。

在这里插入图片描述

以上就是比较常见的字符编码集，希望对大家有所帮助。

参考网址：

①https://www.cnblogs.com/happyday56/p/4135845.html

②https://blog.csdn.net/qq_20545367/article/details/79538530

如有侵权，告知必删。

flowercoder#

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
各种字符集编码

各种字符集由于本人在学习过程中，经常被不同类型的编码折磨故学习总结了一波。现在最常见的是utf-8，同时在不同编辑器打开时utf-8的注释会被翻译成乱码，所以让我很苦恼，不说了，开始总结。Unicode字符集Unicode字符集（简称为UCS）,国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用1
复制链接

扫一扫