UTF-8编码

本文解释了UTF-8编码的工作原理,探讨了在处理中文字符时为何字节流读取会出现特定乱码,并针对多字节字符组合和字节顺序的问题进行了分析。
摘要由CSDN通过智能技术生成

UTF-8(Unicode Transformation Format-8 bits)是一种可变长度的Unicode编码方式,它可以用1到4个字节表示一个字符,根据字符的不同而变化长度。

  1. 单字节, 8位可全部用于编码,可表示 256个字符。
  2. 两字节。
    第一个字节以110开头,后面跟着5位Unicode编码。
    第二个字节以10开头,后面跟着6位Unicode编码。
    11位可用用于编码,可表示 2,048 个字符。
  3. 三字节。
    第一个字节以1110开头,后面跟着4位Unicode编码。
    接下来的两个字节都以10开头,每个后面跟着6位Unicode编码。
    16位可用于编码,可表示 65,536 个字符。
  4. 四字节。
    第一个字节以11110开头,后面跟着3位Unicode编码。
    接下来的三个字节都以10开头,每个后面跟着6位Unicode编码。
    21位可用于编码,可表示 2,097,152 个字符。
    |



    这里记录两个问题.
    1) 为什么我们用字流读取中文文字时出现的乱码都哪些不常见的字符,而没有像A,B,C这样的字符呢?


    按字节读出来的乱码如下

    这就是如上的编码规则决定了的。
    2)如果两个asci码字符连在一起如 11001011(Ë 203) 10110110 (¶ 182), 显然这两个字符组在一起也是符合两字节表达一个字符的。那么这两个字节组装在一起是表示一个字符还是两个字符呢?

    我们将这两个字符输入在文本文件中再用流读取看看

    可以看到它输出的并不是2个字节,而是4个,也就是11000011这个开头的字节不再能表示2个字节组成一个字符的开头字节。
  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
UTF-8编码表是一种用于字符编码的标准,它被广泛应用于计算机系统和互联网传输中。UTF-8编码表支持包括英文字母、数字、符号以及各种国际语言的字符,并且能够满足多种计算机硬件和软件的需求。 如果你想要下载UTF-8编码表,你可以通过多种途径获取。首先,你可以在互联网上搜索UTF-8编码表的下载链接,许多网站和编码相关的社区都提供了该表的下载服务。在搜索结果中选择一个可靠的网站,确保下载的编码表是最新和准确的。 另外,你也可以在官方的编码标准组织网站上找到UTF-8编码表的下载链接。这些组织通常会提供各种不同语言版本的编码表,你可以根据自己的需要选择适合的版本进行下载。 一旦你找到了可靠的下载来源,你可以点击下载链接来获取UTF-8编码表的压缩文件。下载完成后,你需要解压文件并保存到你的计算机或其他设备的合适的位置。 如果你需要使用UTF-8编码表,你可以通过文本编辑器或相关的编程工具打开该文件进行查阅。在编程过程中,你可以通过UTF-8编码表来确定字符的编码值,并且进行相应的转换和处理。 总之,UTF-8编码表是一个非常重要的工具,它能够帮助我们正确地处理和解释各种字符,无论是在计算机系统中还是在互联网传输中。通过合适的途径下载并充分利用UTF-8编码表,能够有效提高我们的工作效率和编程准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值