UTF-8的中文是几个字节

最新推荐文章于 2023-01-06 14:11:56 发布

weixin_34319999

最新推荐文章于 2023-01-06 14:11:56 发布

阅读量403

点赞数

原文链接：https://my.oschina.net/zimingforever/blog/120892

版权

2019独角兽企业重金招聘Python工程师标准>>>

本文是个讨论帖没有确切结论，刚刚遇到的一个中文编码问题，记录一下备忘

3行代码插入3条数据

String text1="哈哈";
String text2=new String(text1.getBytes(),"UTF-8");
String text3=new String(text1.getBytes(),"GBK");
//String sql="insert into YY_TEST VALUES (1,'"+text1+"',SYSDATE)";
//String sql="insert into YY_TEST VALUES (2,'"+text2+"',SYSDATE)";
String sql="insert into YY_TEST VALUES (3,'"+text3+"',SYSDATE)";
            stm.executeUpdate(sql);

数据库的表结构查看一下：

"ID" NUMBER NULL ,
"NAME" VARCHAR2(20 BYTE) NULL ,
"TIME" DATE NULL

插入后的结果如下：

可以看到插入UTF-8的时候是乱码了。这个不是主要问题，主要看从库中去取长度时候的

select id, name,dump(name) from YY_TEST;

再去确认了一下这个库的字符集是UTF-8的，如此推断UTF-8的库下，一个汉字占了3个字节，所以哈哈的length是6

这个和以前的常识是一样的。UTF-8下一个汉字占了3个字节，

问题一：但是用UTF-8写入的数据就占了12个字节？

另外我们用记事本再写一个哈哈

可以看到一个哈字是B9F9 4个16进制的，没算错的话是2个字节。

问题二：UTF-8下的汉字占了2个字节？所以UTF-8的汉字到底占了几个字节？

看了下网上的说法，UTF-8下汉字其实是占了2-4个字节的（UTF-8是不定长的，以前还可以到5-6个字节，后来不用那么长了）

可以参考下面这个问答和博客

http://www.oschina.net/question/102136_40922

http://blog.csdn.net/kgab555666/article/details/6478762

这里再补充一下，oracle库上我用length查了一下数据，结果如下，也就是说他把UTF-8写入的乱码当成了4个长度：

SELECT id,name, "LENGTH"(NAME) FROM YY_TEST

也就是说UTF-8库下每个长度汉字占了3个字节，所以问题1的答案就是那个乱码其实是长度4汉字，每个汉字是3个字节，所以也就是length是12

问题2的答案应该是问答里的结果，占2-4个字节，常见的时候是占了2个字节。

/**

* 2013.4.9 补充一下，感谢师兄@杭州-小胖-java/DB 的解释，顿时明白了许多，关于下午用UE查看16编码的时候犯了一个低阶错误，文件本身就是GBK编码的，所以看上去就是2个字节，用UTF-8编码的时候是3个编码了。。。囧。。。

内容如下：

大部分情况下可以认为UTF-8对非英文字符是占用3个字节，不论是数据库还是什么程序，编码是一致的，后来演变的除UTF-16、UTF-16LE、BE、UTF-32等等，UTF32会采用4byte编码模式，都隶属于UTF系列，也就是规范系列；其中unicode编码属于utf-16；

对于UTF-8绝大部分非英文汉字，采用3byte模式，数据库可以通过写入后使用lengthb()来验证注意不是length()函数；
程序可以通过getByte("utf-8")验证，对于英文字符、数字、简单符号，都是单字节编码模式，不过utf-8内部还有很多细节，不过你用3字节来计算绝大部分是准确的，你用UE，不清楚具体的情况，哈哈，两个汉字的编码应该是：e5 93 88 e5 93 88 这6个byte；

如果你存储在文件中，你读取文件的时候，保存为utf-8格式，“有可能”读取出来有9个byte，因为os上的编辑器大部分保存的时候会带字符集的头部，utf-8文件的BOM文件头部是3个字节，分别是：0xEF 0xBB 0xBF，如果没有文件头部的时候，有些时候操作系统也都有可能会认错文件的内容，因为没有头部只能根据二进制的匹配规则来判定字符集，但是二进制之间是有一些可能存在冲突的；
你如果用“哈哈”这两个汉字，直接用java程序并转换为16进制数据用：Integer.toHexString(byte[i])即可
你读取文件，不带BOM的和上面直接输出一致，带BOM的，前三个byte需要去掉；
如果你用URLEncoder.encode(str , "utf-8")；
输出结果是：
%E5%93%88%E5%93%88 可见和编码一致，只是加上百分号而已，解码的时候就知道百分号后面到下一个百分号之间的为一个字符，网络解码就是这样的；