java里采用的是Unicode编码,其中我们熟知的utf-8是其的一种实现,在这种编码格式下,汉字一般占用3个字节。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号,根据不同的符号而变化字节长度。 Unicode编码长度是固定的,无论是数字、英文还是火星文。所以Unicode编码有点浪费空间。UTF8是针对unicode的空间浪费现象,它的字符的长度是动态的。
目前汉字编码中现在主要用到的还有三类,包括GBK,GB2312和Big5
java里采用的是Unicode编码,其中我们熟知的utf-8是其的一种实现,在这种编码格式下,汉字一般占用3个字节。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号,根据不同的符号而变化字节长度。 Unicode编码长度是固定的,无论是数字、英文还是火星文。所以Unicode编码有点浪费空间。UTF8是针对unicode的空间浪费现象,它的字符的长度是动态的。
目前汉字编码中现在主要用到的还有三类,包括GBK,GB2312和Big5