Unicode字符

基本介绍

Unicode Version 13.0于2020年三月10号发布,包含Emoji13.0,新增加了117个emoji符号。

unicode版本   unicode介绍表   unicode字符表

编码范围

000000-10FFFFFF

范围0000-007F

  • C0 Controls  0000-001F和007F 共33个
  • Basic Latin   0020-007E             共95个

ASCII码表

decocthexch - 转义 decocthexch decocthexch decocthexch
0000NUL (空) 324020(空格)6410040@9614060`
1101SOH (标题开始)334121!6510141A9714161a
2202STX (正文开始)344222"6610242B9814262b
3303ETX (正文结束)354323#6710343C9914363c
4404EOT (传送结束)364424$6810444D10014464d
5505ENQ (询问)374525%6910545E10114565e
6606ACK (确认)384626&7010646F10214666f
7707BEL (响铃)394727'7110747G10314767g
81008BS (退格) \b405028(7211048H10415068h
91109HT (横向制表) \t415129)7311149I10515169i
10120aLF (换行)  \n42522a*741124aJ1061526aj
11130bVT (纵向制表) \v43532b+751134bK1071536bk
12140cFF (换页) \f44542c,761144cL1081546cl
13150dCR (回车) \r45552d-771154dM1091556dm
14160eSO (移出)46562e.781164eN1101566en
15170fSI (移入)47572f/791174fO1111576fo
162010DLE (退出数据链)48603008012050P11216070p
172111DC1 (设备控制1)49613118112151Q11316171q
182212DC2 (设备控制2)50623228212252R11416272r
192313DC3 (设备控制3)51633338312353S11516373s
202414DC4 (设备控制4)52643448412454T11616474t
212515NAK (反确认)53653558512555U11716575u
222616SYN (同步空闲)54663668612656V11816676v
232717ETB (传输块结束)55673778712757W11916777w
243018CAN (取消)56703888813058X12017078x
253119EM (媒介结束)57713998913159Y12117179y
26321aSUB (替换)58723a:901325aZ1221727az
27331bESC (退出)59733b;911335b[1231737b{
28341cFS (文件分隔符)60743c<921345c\1241747c|
29351dGS (组分隔符)61753d=931355d]1251757d}
30361eRS (记录分隔符)62763e>941365e^1261767e~
31371fUS (单元分隔符)63773f?951375f_1271777fDEL (删除)

范围0080-00FF

  • C1 Controls              0080-009F            共32个
  • Latin-1 Supplement 00A0-00FF            共96个

范围0600-06FF

阿拉伯文(arabic)[中东]

  • Arabic-Indic digits(0-9)   0x0660-0x0669

...

范围3000-30FF

  • 3000-303F 中日韩符号和标点 (CJK Symbols and Punctuation)
  • 3040-309F 日文平假名 (Hiragana)
  • 30A0-30FF 日文片假名 (Katakana)

    pdf

范围D000-DFFF

   Low-half zone of UTF-16,

   utf16代理区

范围E000-F8FF

  • Private Use Area

    pdf

范围F900-F9FF

  • F900-FAFF 中日韩兼容表意文字 (CJK Compatibility Ideographs)

范围FE00-FEFF

  • FE00-FE0F 变体选择符 (Variation Selector);
  • FE10-FE1F 竖排形式 (Vertical Forms);
  • FE20-FE2F 组合用半符号 (Combining Half Marks) [欧洲];
  • FE30-FE4F 中日韩兼容形式 (CJK Compatibility Forms);
  • FE50-FE6F 小型变体形式 (Small Form Variants);
  • FE70-FEFF 阿拉伯文变形显现形式-B (Arabic Presentation Form-B) [中东]

范围FF00-FFFF 

  • FF00-FF5E 全角拉丁文 (Fullwidth Latin Letters) [欧洲]
  • FF65-FF9F 日文半角片假名 (Halfwidth Katakana)
  • FFA0-FFDC 朝鲜文半角字母 (Halfwidth Jamo)
  • FFF0-FFFF 特殊 (Specials)

范围1F000-1F0FF

  • 1F000-1F02F 麻将牌 (Mahjong Tiles)
  • 1F030-1F09F 多米诺骨牌 (Domino Tiles)
  • 1F0A0-1F0FF 扑克牌 (Playing Cards)
  • 1F100-1F1FF 封闭式字母数字补充 (Enclosed Alphanumeric Supplement)
  • 1F200-1F2FF 封闭式象形字补充 (Enclosed Ideographic Supplement)
  • 1F300-1F5FF 杂项符号和象形文字 (Miscellaneous Symbols And Pictographs)
  • 1F600-1F64F 表情符号 (Emoticons)
  • 1F650-1F67F 装饰符号 (Ornamental Dingbats)
  • 1F680-1F6FF 运输和地图符号 (Transport and Map Symbols)
  • 1F700-1F77F 化学符号 (Alchemical Symbols)
  • 1F780-1F7FF 几何图形扩展 (Geometric Shapes Extended)
  • 1F800-1F8FF 补充箭头-C (Supplemental Arrows-C)
  • 1F900-1F9FF 补充符号和象形文字 (Supplemental Symbols and Pictographs)
  • 1FA00-1FFFF 未定义

字体文件

  • windows:Segoe UI Emoji 常规 seguiemj.ttf
  • linux:
  • mac:Apple Color Emoji.ttc
  • android:

字符集

  汉字字符集

    收录在xxxx-xxxx范围

    汉字 Unicode 编码范围

    汉字字符集编码查询

    gb2312  gbk   

  arabic

  • arabic                                            0x0600-0x06FF
  • arabic supplement                         0x0750-0x077F
  • arabic extended-A                         0x08A0-0x08FF
  • arabic presentation forms-A          0xFB50-0xFDFF
  • arabic presentation forms-B          0xFE70-0xFEFF

  emoji字符集

    收录在1F000-1F6FF和2600-27FF范围,所有emoji字符

编码转换

  unicode to utf8

10000 0000 - 0000 007F0xxxxxxx
20000 0080 - 0000 07FF110xxxxx 10xxxxxx
30000 0800 - 0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
40001 0000 - 0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
50020 0000 - 03FF FFFF111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
60400 0000 - 7FFF FFFF1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

  unicode to utf16

   unicode 0x000000-0x00ffff范围,直接对等

   unicode 0x000000-0x10ffff范围,代理对(surrogate pair)

Ø 码位减去0x10000, 得到的值的范围为20比特长的0..0xFFFFF(因为Unicode的最大码位是0x10ffff,减去0x10000后,得到的最大值是0xfffff,所以肯定可以用20个二进制位表示),写成二进制形式:yyyy yyyy yyxx xxxx xxxx。

Ø 高位的10比特的值(值的范围为0..0x3FF)被加上0xD800得到第一个码元或称作高位代理(high surrogate), 值的范围是0xD800..0xDBFF。由于高位代理比低位代理的值要小,所以为了避免混淆使用,Unicode标准现在称高位代理为前导代理(lead surrogates)。

Ø 低位的10比特的值(值的范围也是0..0x3FF)被加上0xDC00得到第二个码元或称作低位代理(low surrogate), 现在值的范围是0xDC00..0xDFFF。 由于低位代理比高位代理的值要大,所以为了避免混淆使用,Unicode标准现在称低位代理为后尾代理(trail surrogates)。

Ø 最终的UTF-16(4字节)的编码(二进制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx。

测试

日文

shikaru:

叱る   -   0x53f1,0x308b

叱る   -   0x20b9f,0x308b

系统

 windows - 记事本

  •  ANSI                        - 按照系统编码字符集保存
  •  Unicode                   - 按照unicode16小端,以0xff,0xfe开头,0xfffe31003200
  •  Unicode big endian - 按照unicode16大端,以0xfe,0xff开头,0xfeff00320032
  •  UTF-8                      - 不带BOM,0x3132

字体

script

kerning 两个字符位置advance调整

marktobase mark字符相对base位置调整

参考

千千秀字导航    unicode-utf查询   unicode范围pdf    unicode字符集

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Unicode字符大全是指包含了当前所有的Unicode字符的列表或数据库。Unicode字符集是目前全球通用的字符集,它覆盖了世界上所有语言和符号,并为它们分配了唯一的编码。Unicode字符大全包括了各种字母、数字、符号、标点、货币符号、表情符号、特殊符号等。 Unicode字符大全的编码范围一般为U+0000到U+10FFFF,共计1,114,112个码位。这些码位被分为17个平面,每个平面包含65,536个码位。其中第0平面被保留用于ASCII码,而其余16个平面则用于分配其他字符Unicode字符大全在不同的操作系统和应用程序中得到广泛应用。它使得不同国家和地区的人们能够使用自己的语言和符号进行信息交流。在计算机领域,Unicode字符集也是实现国际化和多语言支持的基础。 为了方便使用Unicode字符大全,用户可以使用相关的Unicode输入工具或字符映射表来查询所需字符的编码。同时,Unicode字符大全也会随着时代的发展和语言的演变而进行不断更新和扩充。 ### 回答2: Unicode字符大全是指包含了所有Unicode字符的数据集合或编码表。Unicode是一个字符编码和字符集标准,它是现代计算机系统中最常用的字符编码方式,旨在为世界上所有的书写系统提供唯一的标准代码。 Unicode字符包括各种文字、符号、数字、标点、数学符号和其他符号等。Unicode字符大全在很多场合中都有应用,例如,在互联网领域中,Unicode字符集已经成为了因特网标准。 Unicode字符大全由统一码联盟(Unicode Consortium)负责维护和更新。目前,Unicode字符集合中至少注册了136,755个字符,每个字符都带有一个唯一的编号和名称。 Unicode字符大全可以分为基本多文种平面(BMP)和补充平面。基本多文种平面(BMP)包含了世界上大多数的字符,而补充平面则包含了许多较少使用的字符,如古代文字、表情符号等。 Unicode字符大全为跨平台文字显示和输入提供了可靠的支持,同时也促进了全球化和跨文化交流的发展。 ### 回答3: Unicode字符大全是指包含了世界各种语言和符号的字符集合,它的目的是让各种文字和符号在计算机上得以统一编码。Unicode字符集包含了1,114,112个字符,这些字符可以分为17个平面,其中基本多文种平面(BMP)的字符最为常用。 Unicode字符集的编码方式采用的是16进制,每个字符都有一个唯一的编号,也称为代码点。例如,“A”的编号为U+0041,“汉”的编号为U+6C49。Unicode还允许使用额外的特殊编码方式,如UTF-8、UTF-16和UTF-32等来存储和传输字符数据。 Unicode字符大全的出现使得跨语言和跨平台的文字交流更加方便和高效,同时也保证了字符的互通性和兼容性。它在计算机科学、通信、文学、文化研究等领域都起到了重要的作用。无论是现代技术还是古代文化,Unicode字符大全都为我们提供了一个强大的世界范围的文字和符号编码标准。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值