Unicode编码的字块,Unicode不同范围对应的不同语言的字符集

Unicode 文字块:

Basic Latin
基本拉丁语
0-127
ASCII 码,美式英语
Latin-1 Supplement
拉丁语补充-1
126-255

ISO Latin-1 前半部分结合Basic Latin 能处理丹麦语、荷兰语、英语、法罗群岛语、佛兰德语、德语、夏威夷语、冰岛语、印度尼西亚语、爱尔兰语、挪威语、葡萄牙语、西班牙语、斯瓦西里语和瑞典语
Latin Extended-A
拉丁文扩展集-A
256-383

该字符块增添了ISO 8859 字符集Latin-2、Latin-3、Latin-4 中的字符,而且是Basic Latin 和Latin-1 没有的字符。同它们结合能够编码南非荷兰语、法国布里多尼语、巴斯克语、加泰罗尼亚语、捷克语、世界语、爱沙尼亚语、法语、Friesland 语、格陵兰岛语、匈牙利语、拉脱维亚语、立陶宛语、马耳它语、波兰语、普罗旺斯语、罗马尼亚语、吉普塞语、斯洛伐克语、斯洛文尼亚语、土耳其语和威尔士语
Latin Extended-B
拉丁文扩展集-B
383-591

大部分字符用于扩展Latin 文字以处理使用非传统文字写的语言,包括许多非洲语言、克罗地亚连字符,与塞尔维亚古斯拉夫字母、中国的拼音和Latin-10中的Sami characters 相匹配

IPA 扩展字符集

 592-687

国际音标字母

间距调节字符 

686-767

通常能够改变前面字母发音的小符号

可识别的连接字符 

766-879 

不独立存在,一般与前面的字母连用(放置在上边)的可识别的记号,如:~、‘and ??

希腊 

880-1023

基于ISO 8859-7 的现代希腊语,同时提供古埃及语字符

古斯拉夫

 1024-1279

基于ISO 8859-5 上的语言,俄语和多数斯拉夫语(乌克兰语、Byelorussian 等),前苏联的许多非斯拉夫语言(Azerbaijani,Ossetian,卡巴尔德
语,Chechen,Tajik 等).几种语言(库尔德语,阿布哈西亚语)需要Latin 和古斯拉夫字母

美国

 1326-1423

 美语

希伯来

 1424-1535

希伯来语(古典和现代)、依地语、Judezmo、早期美语。阿拉伯 1536-1791 阿拉伯语,波斯语、Pashto、Sindhi、库尔德语和早期土耳其语

梵文字母

 2304-2431

梵语,北印度语,尼泊尔语和印度次大陆语言,包括:Awadhi,Bagheli,Bhatneri,Bhili,Bihari,BrajBhasha,Chhattisgarhi,Garhwali,Gondi,Harauti,Ho,Jaipuri,KachchhiKanauji,Konkani,Kului,Kumaoni,Kurku,Kurukh,
Marwari,Mundari,Newari,Palpa,and Santali

孟加拉语

2432-2559

一种北印度文字,使用于印度的西孟加拉州和孟加拉国的孟加拉语、阿萨姆语、Daphla、Garo、Hallam、Khasi、Manipuri、Mizo、Naga、Munda、Rian、Santali

Gurmukhi 

2560-2687 

Punjabi

Gujarati 

2686-2815 

Gujarati

Oriya 

2816-2943 

Oriya、Khondi、Santali

泰米尔语

 2944-3071 

泰米尔语和Badaga、使用于南印度、斯里兰卡、新加坡和马来西亚部分地区

Telugu 

3072-3199 

Telugu、Gondi、Lambadi

埃纳德语

 3200-3327

埃纳德语、Tulu

Malalayam

 3326-3455 

Malalayam

泰国语 

3584-3711

 泰国语、Kuy、Lavna、巴利语

老挝语

 3712-3839 

老挝语

西藏语 

3840-4031

喜玛拉雅语包括西藏语、Ladakhi 和Lahuli

乔治亚语 

4256-4351 乔治亚语,黑海边乔治亚前苏维埃共和国语

Hangul Jamo 

4352-4607 

朝鲜、韩国音节的字母组成部分

Latin 的附加扩展集

 7680-7935

标准的Latin 字母如E 和Y 与可识别的记号组合在一起,除了用于越南语元音中,很少使用

希腊语扩展集

 7936-8191 

希腊字母与可识别记号的组合,用于正统的希腊语中

通用的标点符号

 8192-8303 

各种标点符号

上标和下标 

8304-8351 

普通的上标和下标

货币符号 

8352-8399 货币符号,一般在别的地方找不到

用于符号的组合记号 

8400-8447 

给多个字符做记号

像字母的符号

 8446-8527 

像字母的符号,如™

数表 

8526-8591 

分数和罗马数字

箭头符号 

8592-8703 

箭头符号

数学符号

 8704-8959 

不常出现的数学运算符

技术杂项 

8960-9039

 APL 编程语言需要的符号和其他各种技术符号

控制图形

 9216-9279 

ASCII 控制字符图形,常用于调试

光学字符识别

 9280-9311

在打印支票上的OCR-A(光学字符识别)和MICR(磁性墨水字符识别)符号

附加字符 

9312-9471

 放在圆和括号中的字母和数字

画方框字符 

9472-9599 

用于在等间距终端上画方框的字符

块元素 

9600-9631 

用于DOS 和其他用途的等间距终端图形

几何形状 

9632-9727 

正方形、菱形、三角形等

杂项符号

 9726-9983

 纸牌、象棋、占卜等

Dingbats 

9984-10175 

Zapf Dingbat 字符

CJK 符号和标点 

12286-12351 

用于中国\日本和韩国的标点符号

平假名

 12352-12447

 日文字母的草体.

片假名

 12446-12543

非草体的日文字母,通常用于西方的外来词汇,像"keyboard"

汉语拼音字母 

12544-12591 

中国的发音字母表

Hangul Compatibility Jamo 

12592-12687

 与KSC 5601 代码兼容的韩国字符

Kanbun 

12686-12703 

在日文中用于指示古典中文的阅读顺序的记号

括起来的CJK 字母和月份 

12800-13055 

用圆和括号括起来的Hangul 和片假名字符

CJK Compatibility 

13056-13311

 只用于编码KSC 5601 和CNS 11643 的字符统一的CJK 象形文字 19966-40959 用于中文、日文和韩文的Han 象形文字

Hangul 音节

 44032-55203 

一种韩国音节

Surrogates 

55296-57343 

目前还不能使用,将来可用于扩展Unicode,使它包括超过百万的字符

个人使用 

57344-63743 

软件开发者可以在此包含自己的术语,与正在执行的字符不同

CJK 兼容性象形文字

 63744-64255 

为了保持与现有的标准的一致性如KSC 5601,而使用的一些汉字象形文字

字母的表现方式 

64256-64335 

使用于Latin、美语和希伯来语中的连字和变种

阿拉伯表象形式 

64336-65023 

各种阿拉伯字符的变种

组合半记号

 65056-65071

把跨越多个字符的多个可识别记号连成一个可识别的记号

CJK 兼容性形式 

65072-65103 

用于台湾汉字象形文字

小型变种 

65104-65135

 用于台湾的ASCII 标点符号的小的版本

附加的阿拉伯表象形式

 65136-65279 

各种阿拉伯字符变种

半宽和全宽形式 

65280-65519 

能够在中文和日文的不同代码间转换的字符

特殊字符

 65520-65535 

字节顺序记号和零宽度的非中断性空格,常用于Unicode 文件的开始

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和 1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。 ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 2、非ASCII编码 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制 10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。 但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。 至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256x256=65536个符号。 中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。 3、Unicode Unicode字符集(简称为UCS),国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与 ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留 20249个,共计65534个。Unicode编码后的大小是一样的.例如一个英文字母 "a" 和 一个汉字 "好",编码后都是占用的空间大小是一样的,都是两个字节! Unicode可以用来表示所有语言的字符,而且是定长双字节(也有四字节的)编码,包括英文字母在内。所以可以说它是不兼容iso8859-1编码的,也不兼容任何编码。不过,相对于iso8859-1编码来说,uniocode编码只是在前面增加了一个0字节,比如字母'a'为"00 61"。 需要说明的是,定长编码便于计算机处理(注意GB2312/GBK不是定长编码),而unicode又可以用来表示所有字符,所以在很多软件内部是使用unicode编码来处理的,比如java。 Unicode当然是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字“严”。具体的符号对应表,可以查询 unicode.org,或者专门的汉字对应表。 http://www.chi2ko.com/tool/CJK.htm

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值