字符集个人笔记

文章介绍了字符集的基础知识,包括ASCII、GBK和Unicode,强调Unicode通过UTF-8等编码方式处理多语言字符。还提到了字符串在Java中的编码与解码方法,以及编码不一致导致的中文乱码问题。
摘要由CSDN通过智能技术生成

字符集基础知识:

  • 计算机底层不可以直接存储字符的。计算机中底层只能存储二进制(0,1)

  • 二进制是可以转化为十进制的

总结 :计算机底层可以表示十进制编号。计算机可以给人类字符进行编号存储,这套编号规则就是字符集。

ASCll字符集:

  • ASCLL :包括了数字,英文,字符。

  • ascll使用1个字节存储一个字符,一个字节是8位,总共可以表示128个字符信息,对于英文,数字来说是够用的。

GBK:

  • window系统默认的码表。兼容ASCll码表,也包含了几万个汉字,并支持繁体汉字以及部分日韩文字。

  • 注意:GBK是中国的码表,一个中文以两个字节的形式存储。但不包含世界上所有国家的文字。

Unicode码表:

  • unicode(又称统一码、万国码、单一码)是计算机科学领域里的一项界字符编码标准。

  • 容纳世界上大多数国家的所有常见文字和符号。

  • 由于Unicode会先通过UTF-8,UTF-16,以及UTF-32的编码成二进制后再存储到计算机,其中最为常见的就是UTF-8.

注意:

  • Unicode是万国码,以UTF-8编码后一个中文一般以三个字节的形式存储。

  • UTF-8也要兼容ASCll编码表。

  • 技术人员都应该使用UTF-8字符集编码

  • 编码前和编码后的字符集需要要一致,否则会出现中文乱码。

String编码

btye[] getBytes()               //使用平台的默认字符集将该String编码为一系列字节,将结果存储到新的字节数组中
btye[] getBytes(String charsetName) //使用指定的字符将该String编码为一系列字节,将结果存储到新的字节数组中

String解码

// 构造器
String(byte[] bytes)  //通过使用平台的默认字符集解码指定的字节数组来造新的String
String(byte[] bytes,String charsetName) //通过指定的字符集解码指定的字节数组来构造新的String
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值