字符集and字符集与字符编码

一、概念

1.字符集

字符集,支持的字符包括英文字符、阿拉伯数字等可显示字符,以及回车、换行等控制字符。

2.字符编码

字符编码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本计算机中存储和通过通信网络的传递。

3.对比关系

字符集

字符编码

名称

character set

charset encoding

作用

给字符定义了一个数值编号

定义了该数值怎么存储

与计算机的关系

没有关系,仅仅是字符集合,可以脱离计算机

直接关系,规定字符集里的每一个字符在计算机中是怎样被存储和被传输的

相同

ASCII、‌ISO-8859-1、‌GB2312、GB2312、GBK、GB18030

不同

Unicode

UTF-8、UTF-16和UTF-32等,是Unicode字符集的几种字符编码规则、ANSI编码

二、字符集

1.常见字符集名称

常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集(Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称)等。

2.字符集表格整理

ASCII

GB2312

BIG5

GB18030

Unicode

汉字编码字符集

是什么

最早的一种字符集及字符编码

国标,信息交换用汉字编码字符集 基本集

业界常用标准,使用繁体中文社区中最常用的电脑汉字字符集标准

国标,准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。

用中文可以叫作统一码、万国码等,Unicode是一个字符集,而它可以有多种不同的编码方式

按照一组无歧义的规则而定义的汉字字汇的有序集合

字符

ASCII字符集定义了共256个字符

涵盖了绝大部分的汉字,但汉字中一些生僻字还是无法使用GB2312来表示和处理(GBK字符编码是作为GB2312的扩展)

属于上述MBCS的一种,使用两个字节来存储一个字符,并且拥有“造字区”供用户(用户指的是计算机/操作系统的生产厂商)自定义字符

编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。

Unicode字符集几乎涵盖了世界上所有国家和地区所使用的字符,每个字符设定了统一并且唯一的二进制编码

收录确定的汉字,其中每一个汉字与它的代码表示之间都具有一一对应的关系。

特征

7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。

它是最通用的单字节编码系统,并等同于国际标准ISO 646

对所收汉字进行了“分区”处理,每区含有94个汉字/符号。

字节表示

有局限性,没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。

采用单字节、双字节和四字节三种方式对字符编码

采用单字节、双字节和四字节三种方式对字符编码

三、方法总结

总结:二维表是一种很好的学习方式,通过横纵对比,互联网的搜索,调取各位的搜索调查整合能力,学计算机的同学们可以借鉴哦~

小tip:如若文章有不对的,不完整的地方,欢迎评论区指出,互相学习,共同进步吧!!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值