ASCII、Unicode、GBK和UTF-8字符编码的区别联系

本文介绍了ASCII、GBK、Unicode和UTF-8四种字符编码标准。ASCII主要用于英文字符,GBK是汉字内码扩展规范,包含21003个汉字。Unicode是一个广泛使用的16位编码,囊括全球多种文字。UTF-8是Unicode的变长编码实现,用于网络传输,中文字符在UTF-8中占用3个字节。
摘要由CSDN通过智能技术生成
  • ASCII(American Standard Code for Information Interchange,美国信息互换标准代码)
  • 8位字符编码
  • 0-127:英文字符
  • 128-255:扩展字符
  • GBK编码(全名为汉字内码扩展规范,英文名Chinese Internal Code Specification)
  • 采用双字节表示
  • 编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字
  • Unicode(”Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode”)
  • 16位字符编码
  • 包括了地球上所有文化、所有字母和符号的编码
  • UTF-8(UCS Transfer Format)
  • 可变长度编码
  • 为解决unicode如何在网络上传输,互联网上使用最广的一种unicode的实现方式
  • UTF-8就是每次8个位传输数据,而UTF-16就是每次16个位传输数据

unicode一个中文字符占2个字节,而UTF-8一个中文字符占3个字节,从unicode到uft-8并不是直接的对应,而是要过一些算法和规则来转换。

参考原文链接
https://docs.pythontab.com/learnpython/n002/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值