unicode字符集和utf-8编码

最新推荐文章于 2024-04-20 08:14:49 发布

学海无涯书山有路

最新推荐文章于 2024-04-20 08:14:49 发布

阅读量1.3k

点赞数 1

本文链接：https://blog.csdn.net/u013862108/article/details/115959530

版权

字符集和字符编码的关系：

字符集是书写系统字母与符号的集合
字符编码则是将字符映射为一特定的字节或字节序列，是一种规则。
通常特定的字符集采用特定的编码方式（即一种字符集对应一种字符编码，例如ASCII, IOS-8859-1, GB2312, GBK ,都是表示了字符集又表示了相应的字符编码，）但 unicode 不是，他的编码方式有好几种如：UTF-8 UTF-16BE UTF-16LE UTF-32 等

字符集的发展

单字节 -> 双字节 —> 多字节。

（1）单字节

ASCII (American Standard Code for Information Interchange) , 128 个字符，即 0x00 - 0x7F

EASCII ( Extended ASCII), 256个字符，0x00 - 0xFF 。

（2）双字节

大陆的 GB2312，港台 BIG5, 日本的 Shift JIS

注意 65536个码位这种说法只是理想的情况，由于双字节编码可以是变长的，也就是同一个编码里面有些字符是单字节表示，有些字符是双字节表示。

这样做的好处是，一方面可以兼容 ASCII, 另一方面可以节省存储容量，代价就是会损失一部分码位。

GBK(Chinese Internal Code Specification 汉字内码扩展规范）是GB2312的扩展，按理说都属于双字节编码，码位是一样的，根本谈不上扩展，

但实际上是预留空间在起作用。

GBK 字符集中所有中文字符和全角符号占 2个字节，字母和半角符号占一个字节。

（3）多字节

unicode 字符集国际标准字符集，它将世界各种语言的每个字符定义一个唯一的编码，以满足跨语言，跨平台的文本信息转换。

有多个编码方式，分别是 UTF-8, UTF-16, UTF-32 编码

UTF 是 Unicode Transformation Format 的缩写，意思是 “Unicode 转换格式”，后面的数字表明至少使用多少个比特位（Bit) 来存储字符。

UTF-8: 一种变长的编码方案，使用 1-6 个字节来储蓄；

UTF-32: 一种固定长度的编码方案，不管字符编号大小，始终使用4个字节来储蓄；

UTF-16: 使用2个字节或 4个字节来储蓄，长度即固定又可变。

UTF-8

编码为 1-4 个字节，具体取决于有效位的数量。

下表为 Unicode 值对应的 utf8 需要的字节数量

unicode 编码（16进制） UTF-8字节流（二进制）

000000 - 00007F 0xxxxxxx //ascii码

000080 - 0007FF 110xxxxx 10xxxxxx

000800 - 00FFFF 1110xxxx 10xxxxxx 10xxxxxx

010000 - 10FFFF 11110xxx 10xxxxxx 10xxxxxx

UTF-8 没有两端的说法，就是大端 “大 -中 -小”。

举例

“严”

unicode 码是 4E25,

二进制就是 01001110 00100101

填充后：1110 0100 10 111000 10 100101 共计 24位占 3个字节

注意只有UTF-8 兼容 ASCII ; UTF-16 和UTF-32 都不兼容 ASCII, 因为他们没有单字节编码。

UTF-16

它使用 2个或 4个字节来存储。

对于Unicode 编号范围在 0- FFFF 之间的字符，UTF-16 使用两个字节存储，并且直接存储Unicode 编号，不用进行编码转换。
对于 Unicode 编号范围在 10000 - 10FFFF 之间的字符， UTF-16 使用四个字节存储，具体来说就是：

将字符编号所有比特位分成两部分，较高的一些位用一个介于 D800 - DBFF 之间的双字节存储，较低的一些比特位，用一个值介于 DC00-DFFF 之间的双字节存储。

Unicode 编号范围（十六进制）具体的 Unicode 编号（二进制） UTF-16编码字节

0000 0000 - 0000 FFFF xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx 2

0001 0000 - 0010 FFFF yyyy yyyy yyxx xxxx xxxx 110110yy yyyyyyyy 110111xx xxxxxxxx 4

UTF-32

是固定长度的编码，始终占用 4个字节，足以容纳所有的 Unicode 字符，所以直接存储 Unicode 编号即可，不需要编码转换。浪费了空间，提高了效率

UTF BOM头

BOM (Byte Order Mark ) 字节序，其实就是用大端还是小端。

比如：UTF-16BE 和 UTF-16LE:

UTF-16BE, 其后缀是 BE 即 big-endian, 大端，就是将高位的字节放在低地址表示

UTF-16LE, 其后缀是 LE 即 little-endian, 小端，就是将高位的字节放在高地址表示

UTF 在文件中的存储。 UTF格式在文件中总有固定文件头：

UTF 编码 Byte Order Mark

UTF-8 EF BB BF // 注意 UTF-8 缺省不带 BOM

UTF-16LE FF FE

UTF-16BE FE FF

UTF-32LE FF FE 00 00

UTF-32BE 00 00 FE FF

汉在文件中的存储（不包括头）：

Unicode 编码 UTF-16LE UTF-16BE UTF32-LE UTF32-BE UTF8

0x006C49 49 6C 6C 49 49 6C 00 00 00 00 6C 49 E6B189

UTF-8缺省不带BOM

UTF-8 没有两端的说法，就是大端 “大 -中 -小”。

字符集相关命令

file //查看文件的编码方式

iconv

iconv -f encoding [-t encoding] [inputfile] …

查看支持的格式 iconv -l

5 字符集转换编程

http://www.gnu.org/software/libiconv/documentation/libiconv-1.13/

包含头文件

#include <iconv.h>

iconv_open

iconv_close

iconv(…)

iconv_t iconv_open (const char* tocode, const char* fromcode);

iconv_t cd = iconv_open(“UTF-8”, “UTF-8”);

int iconv_close (iconv_t cd);

iconv_close(cd);

size_t iconv (iconv_t cd, const char* * inbuf, size_t * inbytesleft, char* * outbuf,

size_t * outbytesleft);

-1 说明出现异常，错误码

E2BIG outbuf 没有足够的空间

EILSEQ 遇到无效的多字节序列

EINVAL 遇到不完整的多字节序列

6 字符集应用案例

mysql

部分汉字在mysql 使用 utf8 字符是写入出现异常，或者读取出现异常。

比如煕（煕）在 utf8模式下需要 4个字节表示

myslq的 “utf8” 不是真正的utf-8 , 它的 “utf8” 只支持每个字符最多 3个字节。

真正的utf8 只少要支持4个字节。

mysql 一直没有修复这个bug，他们在 2010年发布的 “utf8mb4” 才是真正的“UTF-8”.

nignx 配置字符集

conf 文件需要加入 charset utf-8;

redis 命令行出现乱码

set 中文 value 时再get 出现乱码

启动时附加 —raw 参数即可。

redis-cli —raw

链接：

GBK 内码查询

http://www.mytju.com/classcode/tools/encode_gb2312.asp

查看完整的 Unicode 字符集，以及各种编码方式

https://unicode-table.com/cn/

Unicode 和 UTF 编码转换

https://www.qqxiuzi.cn/bianma/Unicode-UTF.php

汉字字符集编码查询

https://www.qqxiuzi.cn/bianma/zifuji.php

学海无涯书山有路

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
unicode字符集和utf-8编码

字符集和字符编码的关系：字符集是书写系统字母与符号的集合字符编码则是将字符映射为一特定的字节或字节序列，是一种规则。通常特定的字符集采用特定的编码方式（即一种字符集对应一种字符编码，例如ASCII, IOS-8859-1, GB2312, GBK ,都是表示了字符集又表示了相应的字符编码，）但 unicode 不是，他的编码方式有好几种如：UTF-8 UTF-16BE UTF-16LE UTF-32 等字符集的发展单字节 -> 双字节 —> ...
复制链接

扫一扫