计算机系统通用的字符编码方式

翻译 2017年01月03日 14:15:57


在计算机内存中,统一使用Unicode编码,

当需要保存到硬盘或者需要传输的时候,

就转换为UTF-8编码。


用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,

编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件。


UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,

常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。

如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。


在最新的Python 3版本中,字符串是以Unicode编码的,

也就是说,Python的字符串支持多语言。



相关文章推荐

计算机系统中的编码问题

一、目前常用的编码 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是2...

各种字符编码方式详解及由来

  • 2013年11月17日 09:43
  • 48KB
  • 下载

CentOS字符编码方式

在使用CentOS 系统时,安装的时候可能你会遇到英文的CentOS系统,在这中情况下安装CentOS系统时是默认安装(即英文)。安装完毕后,出现的各种中文乱码。那么,我们如何解决这种问题呢。  ...
  • zcczcw
  • zcczcw
  • 2012年08月22日 19:14
  • 4380

各种字符编码方式详解及由来(ANSI,UNICODE,UTF-8,GB2312,GBK)

一直对字符的各种编码方式懵懵懂懂,什么ANSI、UNICODE、UTF-8、GB2312、GBK、DBCS、UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go! ...
  • wzyzzu
  • wzyzzu
  • 2015年12月16日 11:56
  • 380

各种字符编码方式详解及由来(ANSI,UNICODE,UTF-8,GB2312,GBK)

ANSI,UNICODE,UTF-8,GB2312,GBK

各种字符编码方式详解及由来(ANSI,UNICODE,UTF-8,GB2312,GBK)

一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go! ...

常见的几种字符编码方式及Unicode与UTF-8之间的关系

原文地址:http://blog.csdn.net/csywwx2008/article/details/17137097 一、常见的编码方式 常见的一些字符编码方式无非有:Unicode...

Linux字符编码方式

首先,解释一下字符集: 汉字编码: * GB2312字集是简体字集,全称为GB2312(80)字集,共包括国标简体汉字6763个。 * BIG5字集是台湾繁体字集,共包括国标繁体汉字13053个。 *...
  • zcczcw
  • zcczcw
  • 2012年08月22日 18:50
  • 12272

字符编码方式基础

ASCII:基本字符集是128个常用字符,扩展字符集是128个,共256个,用1个字节表示。 GB2312:6千多个常用汉字 GBK:1万多个汉字 GB18030:更多,不过依然是两个字节来表示...

字符编码方式:ASCII, Unicode和UTF-8

转自:http://blog.chinaunix.net/uid-21633169-id-4337685.html字符编码是计算机技术的基石,想要熟练使用计算机,懂得一点字符编码的知识,还是很有必要的...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:计算机系统通用的字符编码方式
举报原因:
原因补充:

(最多只允许输入30个字)