字符编码UTF-8 unicode GBK GB2312

最新推荐文章于 2024-02-18 14:38:52 发布

kidari

最新推荐文章于 2024-02-18 14:38:52 发布

阅读量329

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/kidari/article/details/100018662

版权

java 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

UTF-8：Unicode Transformation Format-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBK大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：

GBK、GB2312－－Unicode－－UTF8

UTF8－－Unicode－－GBK、GB2312

对于一个网站、论坛来说，如果英文字符较多，则建议使用UTF－8节省空间。不过现在很多论坛的插件一般只支持GBK。

GB2312是GBK的子集，GBK是GB18030的子集 GBK是包括中日韩字符的大字符集合

如果是中文的网站推荐GB2312 GBK有时还是有点问题

为了避免所有乱码问题，应该采用UTF-8，将来要支持国际化也非常方便 UTF-8可以看作是大字符集，它包含了大部分文字的编码。

GB2312编码大约包含6000多简体汉字（不包括特殊字符）,编码范围为第一位b0-f7,第二位编码范围为a1-fe(第一位为cf时,第二位为a1-d3),计算一下汉字个数为6762个汉字。当然还有其他的字符。包括控制键和其他字符大约7573个字符编码

gbk编码是对G B2312编码的扩充，容纳的汉字更多，但仅仅是扩充，没有质的变化。保留了所有G B2312编码,在此基础上进行编码范围的扩充.容纳(包含特殊字符)共22014个字符编码.

gb18030编码是在gbk编码基础上的扩充，因为汉字更多，仅仅使用两位编码已经不能容纳要求的汉字，所以采用了2\4位混和的办法，可以支持更多的汉字编码。并且保留了原有的gbk 2字节编码兼容G B2312和gbk编码的文件。大概容纳55657个编码(包含特殊字符)

unicode编码(也就是UTF编码)：俗称万国码，致力于使用统一的编码准则表达各国的文字。为表达更多的文字，utf-8采用2/3混编的方式。目前容纳的汉字范围小于gbk编码。并且以 3字节的方式处理中文，带来了兼容性的问题，原有的gbk,G B2312,gb18030编码文件都不能正常的处理,还有很长的路要走。

GBK中字符是一个或者两个字节，单字节00–7F这个区间和ASCII是一样的；双字节字符的第一个字节在81-FE之间，通过这个可以判断是单字节还是双字节

GB 系列编码是利用了字节中的最高位和ASCII编码区分的。

所以可以和ASCII码混用。

GB2312中1区到15区共682个字符或图形符号都是全角方式下的字符。即：

若byte[] bb＝"ｈｅｌｌｏ".getBytes("gb2312");(注意是全角方式下)，bb字节数组的长度就会是10了。

因此：gb2312中的所有字符都是用二个字节表示（是因为：它的字符都是全角方式）。gb2312中不会对半角方式下的字符编码的（这是ASCII码的事情），因此：在getBytes("gb2312");转换时，半角的字符都是一个字节，全角的同样字符才是两个字节。

ROUND(2.18, 1)：将 2.18 四舍五入到一个小数位

得出的结果是2.2

若要始终进行向上舍入（远离 0），使用 ROUNDUP 函数。

若要始终进行向下舍入（朝向 0），使用 ROUNDDOWN 函数。

DECIMAL(P,S)

cast(num as decimal(10,2))