mysql unicode 转utf8_关于JAVA字符编码：Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

最新推荐文章于 2021-02-01 19:12:15 发布

BossGuo果老板

最新推荐文章于 2021-02-01 19:12:15 发布

阅读量432

点赞数

文章标签： mysql unicode 转utf8

本文链接：https://blog.csdn.net/weixin_29337389/article/details/113326743

版权

我们最初学习计算机的时候，都学过ASCII编码。

但是为了表示各种各样的语言，在计算机技术的发展过程中，逐渐出现了很多不同标准的编码格式，

重要的有Unicode、UTF、ISO-8859-1和中国人经常使用的GB2312、BIG5、GBK等。

1.编码基础知识

最早的编码是iso8859-1，和ascii编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码，重要的有如下几个。

1.1. ISO-8859-1 通常叫做Latin-1

属于单字节编码，最多能表示的字符范围是0-255，应用于英文系列。比如，字母a的编码为0x61=97。

很明显，iso8859-1编码表示的字符范围很窄，无法表示中文字符。但是，由于是单字节编码，和计算机最基础的表示单位一致，所以很多时候，仍旧使用iso8859-1编码来表示。

而且在很多协议上，默认使用该编码。比如，虽然"中文"两个字不存在iso8859-1编码，

以gb2312编码为例，应该是"d6d0 cec4"两个字符(java字符占2个字节)，

使用iso8859-1编码的时候则将它拆开为4个字节来表示："d6 d0 ce c4"(事实上，在进行存储的时候，也是以字节为单位处理的)。

而如果是UTF编码，则是6个字节"e4 b8 ad e6 96 87"。

很明显，这种表示方法还需要以另一种编码为基础。

1.2. GB2312/GBK

这就是汉字的国标码，专门用来表示汉字，是双字节编码，而英文字母和iso8859-1一致(兼容iso8859-1编码)。

其中gbk编码能够用来同时表示繁体字和简体字，

而gb2312只能表示简体字，gbk是兼容gb2312编码的。

1.3 unicode

这是最统一的编码，可以用来表示所有语言的字符，而且是定长双字节(也有四字节的)编码，包括英文字母在内。所以可以说它是不兼容iso8859-1编码的，也不兼容任何编码。不过，相对于iso8859-1编码来说，uniocode编码只是在前面增加了一个0字节，比如字母a为"00 61"。

需要说明的是，定长编码便于计算机处理(注意GB2312/GBK不是定长编码)，而unicode又可以用来表示所有字符，所以在很多软件内部是使用unicode编码来处理的，比如java。

1.4 UTF

考虑到unicode编码不兼容iso8859-1编码，而且容易占用更多的空间：因为对于英文字母，unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码，utf编码兼容iso8859-1编码，同时也可以用来表示所有语言的字符，不过，utf编码是不定长编码，每一个字符的长度从1-6个字节不等。另外，utf编码自带简单的校验功能。一般来讲，英文字母都是用一个字节表示，而汉字使用三个字节。

注意，虽然说utf是为了使用更少的空间而使用的，但那只是相对于unicode编码来说，如果已经知道是汉字，则使用GB2312/GBK无疑是最节省的。不过另一方面，值得说明的是，虽然utf编码对汉字使用3个字节，但即使对于汉字网页，utf编码也会比unicode编码节省，因为网页中包含了很多的英文字符。

2.Unicode、UTF-8 和 ISO8859-1区别与联系

将以"中文"两个字为例，经查表可以知道其

GB2312编码是"d6d0 cec4"，

Unicode编码为"4e2d 6587"，

UTF编码就是"e4b8ad e69687"。

注意，这两个字没有iso8859-1编码，但可以用iso8859-1编码来表示。

2.1 Unicode与各编码之间的直接转换

下面以对中文字符串＂ａ中文＂的编码转换为例，来了解各种编码之间的转换

１)Unicode和GBK

测试结果如下，每个汉字转换为两个字节，且是可逆的，即通过字节可以转换回字符串

String－GBK〉ByteArray：/u0061/u4E2D/u6587(a中文)－〉0x61 0xD6 0xD0 0xCE 0xC4ByteArray－GBK〉String：0x61 0xD6 0xD0 0xCE 0xC4－〉/u0061/u4E2D/u6587(a中文)

２)Unicode和UTF-8

测试结果如下，每个汉字转换为三个字节，且是可逆的，即通过字节可以转换回字符串

String－UTF-8〉ByteArray：/u0061/u4E2D/u6587(a中文)－〉0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87ByteArray－UTF-8〉String：0x61 0xE4 0xB8 0xAD 0xE6%0x96 0x87－〉/u0061/u4E2D/u6587(a中文)

３)Unicode和ISO-8859-1

测试结果如下，当存在汉字时转换失败，非可逆，即通过字节不能再转换回字符串

String－ISO-8859-1〉ByteArray：/u0061/u4E2D/u6587(a中文)－〉0x61 0x3F 0x3FByteArray－ISO-8859-1〉String：0x61 0x3F 0x3F－〉/u0061/u003F/u003F(a??)

2.2 Unicode与各编码之间的交叉转换

在上面直接转换中，由字符串(Unicode)生成的字节数组，在构造回字符串时，使用的是正确的编码集合&

最低0.47元/天解锁文章

BossGuo果老板

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mysql unicode 转utf8_关于JAVA字符编码：Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

我们最初学习计算机的时候，都学过ASCII编码。但是为了表示各种各样的语言，在计算机技术的发展过程中，逐渐出现了很多不同标准的编码格式，重要的有Unicode、UTF、ISO-8859-1和中国人经常使用的GB2312、BIG5、GBK等。1.编码基础知识最早的编码是iso8859-1，和ascii编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码，重要的有如下几个。1.1. ISO-...
复制链接

扫一扫