Unicode 编码表

正则查找:

 

中文文字+中文符号+表情符号+...
[^\x00-\xff]

其中 \x00-\xff 匹配 ASCII 代码中十六进制代码为 00-ff 的字符,
加个取反 ^ ,则就表示表示匹配非单字节的字符,例如汉字,汉字符号等字符集。

中文文字(简体+繁体)
[\x{4e00}-\x{9fa5}]

最常用的范围是 U+4E00~U+9FA5, 即名为:CJK Unified Ideographs 的区块。

:: --------------------------------------------------------------------------------------------------------------------

https://blog.csdn.net/yewadehasdied/article/details/84170721#unicode编码的分布
https://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/#完整的CJK Unicode范围(5.0版)

PS:Unicode 中 U+4E00~U+9FFF 的码表:
http://www.unicode.org/charts/PDF/U4E00.pdf

在这里可以根据 Unicode 码查到所有的字符:
http://www.unicode.org/cgi-bin/GetUnihanData.pl

:: --------------------------------------------------------------------------------------------------------------------

https://zh.wikipedia.org/zh-cn/Unicode区段


[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。

平面	区段范围	区段名称		码位数[a]	已定义字元数	文字[b][c][d][e][f]
		汉语	英语
 0 BMP	U+0000..U+007F	基本拉丁字母	Basic Latin[g]	128	128	拉丁字母(52个)、通用(76个)
 0 BMP	U+0080..U+00FF	拉丁字母补充-1	Latin-1 Supplement[h]	128	128	拉丁字母(64个)、通用(64个)
 0 BMP	U+0100..U+017F	拉丁字母扩展-A	Latin Extended-A	128	128	拉丁
 0 BMP	U+0180..U+024F	拉丁字母扩展-B	Latin Extended-B	208	208	拉丁
 0 BMP	U+0250..U+02AF	国际音标扩展	IPA Extensions	96	96	拉丁
 0 BMP	U+02B0..U+02FF	占位修饰符号	Spacing Modifier Letters	80	80	注音符号(2个)、拉丁(14个)、通用(64个)
 0 BMP	U+0300..U+036F	组合附加符号	Combining Diacritical Marks	112	112	继承
 0 BMP	U+0370..U+03FF	希腊字母和科普特字母	Greek and Coptic	144	135	科普特字母(14个)、希腊字母(117个)、通用(4个)
 0 BMP	U+0400..U+04FF	西里尔字母	Cyrillic	256	256	西里尔字母(254个)、继承(2个)
 0 BMP	U+0500..U+052F	西里尔字母补充	Cyrillic Supplement	48	48	西里尔字母
 0 BMP	U+0530..U+058F	亚美尼亚字母	Armenian	96	91	亚美尼亚字母
 0 BMP	U+0590..U+05FF	希伯来文字母	Hebrew	112	88	希伯来字母
 0 BMP	U+0600..U+06FF	阿拉伯文字母	Arabic	256	256	阿拉伯字母(238个)、通用(6个)、继承(12个)
 0 BMP	U+0700..U+074F	叙利亚字母	Syriac	80	77	叙利亚字母
 0 BMP	U+0750..U+077F	阿拉伯文补充	Arabic Supplement	48	48	阿拉伯文
 0 BMP	U+0780..U+07BF	它拿字母	Thaana	64	50	它拿字母(塔纳语)
 0 BMP	U+07C0..U+07FF	西非书面文字	NKo	64	62	西非书面文字
 0 BMP	U+0800..U+083F	撒玛利亚字母	Samaritan	64	61	撒玛利亚字母
 0 BMP	U+0840..U+085F	曼达安字母	Mandaic	32	29	曼达安字母
 0 BMP	U+0860..U+086F	叙利亚文补充	Syriac Supplement	16	11	叙利亚文
 0 BMP	U+0870..U+089F	阿拉伯字母扩展-B	Arabic Extended-B	48	41	阿拉伯字母
 0 BMP	U+08A0..U+08FF	阿拉伯字母扩展-A	Arabic Extended-A	96	96	阿拉伯字母(95个)、通用(1个)
 0 BMP	U+0900..U+097F	天城文(梵文)	Devanagari	128	128	天城文(122个)、通用(2个)、继承(4个)
 0 BMP	U+0980..U+09FF	孟加拉文	Bengali	128	96	孟加拉文
 0 BMP	U+0A00..U+0A7F	古木基文	Gurmukhi	128	80	古木基文
 0 BMP	U+0A80..U+0AFF	古吉拉特文	Gujarati	128	91	古吉拉特文
 0 BMP	U+0B00..U+0B7F	奥里亚文	Oriya	128	91	奥里亚文
 0 BMP	U+0B80..U+0BFF	泰米尔文	Tamil	128	72	泰米尔文
 0 BMP	U+0C00..U+0C7F	泰卢固文	Telugu	128	100	泰卢固文
 0 BMP	U+0C80..U+0CFF	卡纳达文	Kannada	128	91	卡纳达文
 0 BMP	U+0D00..U+0D7F	马拉雅拉姆文	Malayalam	128	118	马拉雅拉姆文
 0 BMP	U+0D80..U+0DFF	僧伽罗文	Sinhala	128	91	僧伽罗文
 0 BMP	U+0E00..U+0E7F	泰文	Thai	128	87	泰文(86个)、通用(1个)
 0 BMP	U+0E80..U+0EFF	寮文(老挝语)	Lao	128	83	寮文
 0 BMP	U+0F00..U+0FFF	藏文	Tibetan	256	211	藏文字母(207个)、通用(4个)
 0 BMP	U+1000..U+109F	缅甸文	Myanmar	160	160	缅文
 0 BMP	U+10A0..U+10FF	格鲁吉亚字母	Georgian	96	88	格鲁吉亚字母(87个)、通用(1个)
 0 BMP	U+1100..U+11FF	谚文字母	Hangul Jamo	256	256	谚文(朝鲜文)
 0 BMP	U+1200..U+137F	埃塞俄比亚字母	Ethiopic	384	358	吉兹字母
 0 BMP	U+1380..U+139F	埃塞俄比亚字母补充	Ethiopic Supplement	32	26	吉兹字母
 0 BMP	U+13A0..U+13FF	切罗基文	Cherokee	96	92	切罗基文
 0 BMP	U+1400..U+167F	统一加拿大原住民音节文字	Unified Canadian Aboriginal Syllabics	640	640	加拿大原住民音节文字
 0 BMP	U+1680..U+169F	欧甘字母	Ogham	32	29	欧甘字母
 0 BMP	U+16A0..U+16FF	卢恩字母	Runic	96	89	卢恩字母(86个)、通用(3个)
 0 BMP	U+1700..U+171F	他加禄字母	Tagalog	32	23	他加禄字母
 0 BMP	U+1720..U+173F	哈努诺文	Hanunoo	32	23	哈努诺字母(21个)、通用(2个)
 0 BMP	U+1740..U+175F	布希德字母	Buhid	32	20	布希德文
 0 BMP	U+1760..U+177F	塔格班瓦字母	Tagbanwa	32	18	塔格班瓦字母
 0 BMP	U+1780..U+17FF	高棉文	Khmer	128	114	高棉文
 0 BMP	U+1800..U+18AF	蒙古文	Mongolian	176	158	蒙古文字母(155个)、通用(3个)
 0 BMP	U+18B0..U+18FF	统一加拿大原住民音节文字扩展	Unified Canadian Aboriginal Syllabics Extended	80	70	加拿大原住民音节文字
 0 BMP	U+1900..U+194F	林布文	Limbu	80	68	林布文
 0 BMP	U+1950..U+197F	德宏傣文	Tai Le	48	35	德宏傣文
 0 BMP	U+1980..U+19DF	新傣仂文	New Tai Le	96	83	新傣仂文
 0 BMP	U+19E0..U+19FF	高棉文符号	Khmer Symbols	32	32	高棉文
 0 BMP	U+1A00..U+1A1F	布吉文	Buginese	32	30	布吉文
 0 BMP	U+1A20..U+1AAF	老傣文	Tai Tham	144	127	老傣仂文
 0 BMP	U+1AB0..U+1AFF	组合附加符号扩展	Combining Diacritical Marks Extended	80	31	继承
 0 BMP	U+1B00..U+1B7F	巴厘字母	Balinese	128	124	巴厘字母
 0 BMP	U+1B80..U+1BBF	巽他字母	Sundanese	64	64	巽他字母
 0 BMP	U+1BC0..U+1BFF	巴塔克字母	Batak	64	56	巴塔克字母
 0 BMP	U+1C00..U+1C4F	绒巴文	Lepcha	80	74	绒巴文
 0 BMP	U+1C50..U+1C7F	桑塔利文	Ol Chiki	48	48	桑塔利文
 0 BMP	U+1C80..U+1C8F	西里尔字母扩展-C	Cyrillic Extended-C	16	9	西里尔字母
 0 BMP	U+1C90..U+1CBF	格鲁吉亚字母扩展	Georgian Extended	48	46	格鲁吉亚字母
 0 BMP	U+1CC0..U+1CCF	巽他字母补充	Sundanese Supplement	16	8	巽他字母
 0 BMP	U+1CD0..U+1CFF	吠陀扩展	Vedic Extensions	48	43	通用(16个)、继承(27个)
 0 BMP	U+1D00..U+1D7F	音标扩展	Phonetic Extensions	128	128	西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个)
 0 BMP	U+1D80..U+1DBF	音标扩展补充	Phonetic Extensions Supplement	64	64	希腊字母(1个)、拉丁字母(63个)
 0 BMP	U+1DC0..U+1DFF	组合附加符号补充	Combining Diacritical Marks Supplement	64	64	继承
 0 BMP	U+1E00..U+1EFF	拉丁字母扩展附加	Latin Extended Additional	256	256	拉丁
 0 BMP	U+1F00..U+1FFF	希腊字母扩展	Greek Extended	256	233	希腊字母
 0 BMP	U+2000..U+206F	一般标点	General Punctuation	112	111	通用(109个)、继承(2个)
 0 BMP	U+2070..U+209F	上标及下标	Superscripts and Subscripts	48	42	拉丁(15个)、通用(27个)
 0 BMP	U+20A0..U+20CF	货币符号	Currency Symbols	48	33	通用
 0 BMP	U+20D0..U+20FF	符号用组合附加符号	Combining Diacritical Marks for Symbols	48	33	继承
 0 BMP	U+2100..U+214F	类字母符号	Letterlike Symbols	80	80	希腊文(1个)、拉丁(4个)、通用(75个)
 0 BMP	U+2150..U+218F	数字形式	Number Forms	64	60	拉丁(41个)、通用(19个)
 0 BMP	U+2190..U+21FF	箭头	Arrows	112	112	通用
 0 BMP	U+2200..U+22FF	数学运算符	Mathematical Operators	256	256	通用
 0 BMP	U+2300..U+23FF	杂项技术符号	Miscellaneous Technical	256	256	通用
 0 BMP	U+2400..U+243F	控制图形	Control Pictures	64	39	通用
 0 BMP	U+2440..U+245F	光学字符识别	Optical Character Recognition	32	11	通用
 0 BMP	U+2460..U+24FF	带圈字母数字	Enclosed Alphanumerics	160	160	通用
 0 BMP	U+2500..U+257F	制表符	Box Drawing	128	128	通用
 0 BMP	U+2580..U+259F	方块元素	Block Elements	32	32	通用
 0 BMP	U+25A0..U+25FF	几何图形	Geometric Shapes	96	96	通用
 0 BMP	U+2600..U+26FF	杂项符号	Miscellaneous Symbols	256	256	通用
 0 BMP	U+2700..U+27BF	装饰符号	Dingbats	192	192	通用
 0 BMP	U+27C0..U+27EF	杂项数学符号-A	Miscellaneous Mathematical Symbols-A	48	48	通用
 0 BMP	U+27F0..U+27FF	追加箭头-A	Supplemental Arrows-A	16	16	通用
 0 BMP	U+2800..U+28FF	点字图案	Braille Patterns	256	256	盲文
 0 BMP	U+2900..U+297F	追加箭头-B	Supplemental Arrows-B	128	128	通用
 0 BMP	U+2980..U+29FF	杂项数学符号-B	Miscellaneous Mathematical Symbols-B	128	128	通用
 0 BMP	U+2A00..U+2AFF	补充数学运算符	Supplemental Mathematical Operators	256	256	通用
 0 BMP	U+2B00..U+2BFF	杂项符号和箭头	Miscellaneous Symbols and Arrows	256	253	通用
 0 BMP	U+2C00..U+2C5F	格拉哥里字母	Glagolitic	96	96	格拉哥里字母
 0 BMP	U+2C60..U+2C7F	拉丁字母扩展-C	Latin Extended-C	32	32	拉丁字母
 0 BMP	U+2C80..U+2CFF	科普特字母	Coptic	128	123	科普特字母
 0 BMP	U+2D00..U+2D2F	格鲁吉亚字母补充	Georgian Supplement	48	40	格鲁吉亚字母
 0 BMP	U+2D30..U+2D7F	提非纳文	Tifinagh	80	59	提非纳文
 0 BMP	U+2D80..U+2DDF	埃塞俄比亚字母扩展	Ethiopic Extended	96	79	吉兹字母
 0 BMP	U+2DE0..U+2DFF	西里尔字母扩展-A	Cyrillic Extended-A	32	32	西里尔字母
 0 BMP	U+2E00..U+2E7F	补充标点	Supplemental Punctuation	128	94	通用
 0 BMP	U+2E80..U+2EFF	中日韩汉字部首补充	CJK Radicals Supplement	128	115	汉字
 0 BMP	U+2F00..U+2FDF	康熙部首	Kangxi Radicals	224	214	汉字
 0 BMP	U+2FF0..U+2FFF	表意文字描述字符	Ideographic Description Characters	16	12	通用(汉字结构描述字符)
 0 BMP	U+3000..U+303F	中日韩符号和标点	CJK Symbols and Punctuation	64	64	汉字(15个)、谚文(2个)、通用(43个)、继承(4个)
 0 BMP	U+3040..U+309F	日文平假名	Hiragana	96	93	平假名(89个)、通用(2个)、继承(2个)
 0 BMP	U+30A0..U+30FF	日文片假名	Katakana	96	96	片假名(93个)、通用(3个)
 0 BMP	U+3100..U+312F	注音符号	Bopomofo	48	43	注音符号
 0 BMP	U+3130..U+318F	谚文相容字母	Hangul Compatibility Jamo	96	94	谚文(朝鲜文兼容字母)
 0 BMP	U+3190..U+319F	汉文训读符号	Kanbun	16	16	通用
 0 BMP	U+31A0..U+31BF	注音符号扩展	Bopomofo Extended	32	32	注音符号(闽南语、客家语扩展)
 0 BMP	U+31C0..U+31EF	中日韩笔画	CJK Strokes	48	36	通用
 0 BMP	U+31F0..U+31FF	片假名语音扩展	Katakana Phonetic Extensions	16	16	片假名
 0 BMP	U+3200..U+32FF	中日韩围绕字元及月份	Enclosed CJK Letters and Months	256	255	谚文(62个)、片假名(47个)、通用(146个)
 0 BMP	U+3300..U+33FF	中日韩相容字元(日期合并)	CJK Compatibility	256	256	片假名(88个)、通用(168个)//中文字符开始
 0 BMP	U+3400..U+4DBF	中日韩统一表意文字扩展区A	CJK Unified Ideographs Extension A	6,592	6,592	汉字
 0 BMP	U+4DC0..U+4DFF	易经六十四卦符号	Yijing Hexagram Symbols	64	64	通用
 0 BMP	U+4E00..U+9FFF	中日韩统一表意文字 (基本区)	CJK Unified Ideographs	20,992	20,992	汉字//中文字符结束
 0 BMP	U+A000..U+A48F	彝文音节	Yi Syllables	1,168	1,165	彝文
 0 BMP	U+A490..U+A4CF	彝文部首	Yi Radicals	64	55	彝文
 0 BMP	U+A4D0..U+A4FF	傈僳文	Lisu	48	48	老傈僳文
 0 BMP	U+A500..U+A63F	瓦伊文	Vai	320	300	瓦伊文
 0 BMP	U+A640..U+A69F	西里尔字母扩展-B	Cyrillic Extended-B	96	96	西里尔字母
 0 BMP	U+A6A0..U+A6FF	巴姆穆文字	Bamum	96	88	巴姆穆文字
 0 BMP	U+A700..U+A71F	声调修饰符号	Modifier Tone Letters	32	32	通用
 0 BMP	U+A720..U+A7FF	拉丁字母扩展-D	Latin Extended-D	224	193	拉丁(188个)、通用(5个)
 0 BMP	U+A800..U+A82F	锡尔赫特文	Syloti Nagri	48	45	锡尔赫特文
 0 BMP	U+A830..U+A83F	通用印度数字形式	Common Indic Number Forms	16	10	通用
 0 BMP	U+A840..U+A87F	八思巴文	Phags-pa	64	56	八思巴字
 0 BMP	U+A880..U+A8DF	索拉什特拉文	Saurashtra	96	82	索拉什特拉文
 0 BMP	U+A8E0..U+A8FF	天城文扩展	Devanagari Extended	32	32	天城文
 0 BMP	U+A900..U+A92F	克耶字母	Kayah Li	48	48	克耶字母(47个)、通用(1个)
 0 BMP	U+A930..U+A95F	勒姜字母	Rejang	48	37	勒姜字母
 0 BMP	U+A960..U+A97F	谚文字母扩展-A	Hangul Jamo Extended-A	32	29	谚文
 0 BMP	U+A980..U+A9DF	爪哇字母	Javanese	96	91	爪哇字母(90个)、通用(1个)
 0 BMP	U+A9E0..U+A9FF	缅甸文扩展-B	Myanmar Extended-B	32	31	缅甸文
 0 BMP	U+AA00..U+AA5F	占文	Cham	96	83	占文
 0 BMP	U+AA60..U+AA7F	缅甸文扩展-A	Myanmar Extended-A	32	32	缅文
 0 BMP	U+AA80..U+AADF	傣越文	Tai Viet	96	72	傣越文
 0 BMP	U+AAE0..U+AAFF	梅泰文扩展	Meetei Mayek Extensions	32	23	曼尼普尔文
 0 BMP	U+AB00..U+AB2F	埃塞俄比亚字母扩展-A	Ethiopic Extended-A	48	32	吉兹字母
 0 BMP	U+AB30..U+AB6F	拉丁字母扩展-E	Latin Extended-E	64	60	拉丁(56个)、希腊语(1个)、通用(3个)
 0 BMP	U+AB70..U+ABBF	切罗基文补充	Cherokee Supplement	80	80	切罗基文
 0 BMP	U+ABC0..U+ABFF	梅泰文	Meetei Mayek	64	56	梅泰文
 0 BMP	U+AC00..U+D7AF	谚文音节	Hangul Syllables	11,184	11,172	谚文(朝鲜文)
 0 BMP	U+D7B0..U+D7FF	谚文字母扩展-B	Hangul Jamo Extended-B	80	72	谚文(朝鲜文)
 0 BMP	U+D800..U+DB7F	高半代用区	High Surrogates	896	0	未知
 0 BMP	U+DB80..U+DBFF	高半私人代用区	High Private Use Surrogates	128	0	未知
 0 BMP	U+DC00..U+DFFF	低半代用区	Low Surrogates	1,024	0	未知
 0 BMP	U+E000..U+F8FF	私用区	Private Use Area	6,400	6,400	未知
 0 BMP	U+F900..U+FAFF	中日韩兼容表意文字	CJK Compatibility Ideographs	512	472	汉字
 0 BMP	U+FB00..U+FB4F	字母表达形式	Alphabetic Presentation Forms	80	58	亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个)
 0 BMP	U+FB50..U+FDFF	阿拉伯字母表达形式-A	Arabic Presentation Forms-A	688	631	阿拉伯字母(629个)、通用(2个)
 0 BMP	U+FE00..U+FE0F	变体选择符	Variation Selectors	16	16	继承
 0 BMP	U+FE10..U+FE1F	竖排形式	Vertical Forms	16	10	通用(中文竖排标点)
 0 BMP	U+FE20..U+FE2F	组合用半符号	Combining Half Marks	16	16	西里尔字母(2个)、继承(14个)
 0 BMP	U+FE30..U+FE4F	中日韩相容形式	CJK Compatibility Forms	32	32	通用(竖排变体、下划线、顿号)
 0 BMP	U+FE50..U+FE6F	小写变体形式	Small Form Variants	32	26	通用
 0 BMP	U+FE70..U+FEFF	阿拉伯字母表达形式-B	Arabic Presentation Forms-B	144	141	阿拉伯字母(140个)、通用(1个)
 0 BMP	U+FF00..U+FFEF	半形及全形字符	Halfwidth and Fullwidth Forms	240	225	谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
 0 BMP	U+FFF0..U+FFFF	特殊	Specials	16	5	通用
 1 SMP	U+10000..U+1007F	线形文字B音节文字	Linear B Syllabary	128	88	线形文字B
 1 SMP	U+10080..U+100FF	线形文字B表意文字	Linear B Ideograms	128	123	线形文字B
 1 SMP	U+10100..U+1013F	爱琴海数字	Aegean Numbers	64	57	通用
 1 SMP	U+10140..U+1018F	古希腊数字	Ancient Greek Numbers	80	79	希腊文
 1 SMP	U+10190..U+101CF	古代符号	Ancient Symbols	64	14	希腊文(1个)、通用(13个)
 1 SMP	U+101D0..U+101FF	斐斯托斯圆盘	Phaistos Disc	48	46	通用(45个)、继承(1个)
 1 SMP	U+10280..U+1029F	吕基亚字母	Lycian	32	29	吕基亚字母
 1 SMP	U+102A0..U+102DF	卡里亚字母	Carian	64	49	卡利亚字母
 1 SMP	U+102E0..U+102FF	科普特闰余数字	Coptic Epact Numbers	32	28	通用(27个)、继承(1个)
 1 SMP	U+10300..U+1032F	古意大利字母	Old Italic	48	39	古意大利字母
 1 SMP	U+10330..U+1034F	哥特字母	Gothic	32	27	哥特字母
 1 SMP	U+10350..U+1037F	古彼尔姆文	Old Permic	48	43	古彼尔姆文
 1 SMP	U+10380..U+1039F	乌加里特字母	Ugaritic	32	31	乌加里特字母
 1 SMP	U+103A0..U+103DF	古波斯楔形文字	Old Persian	64	50	古波斯楔形文字
 1 SMP	U+10400..U+1044F	德瑟雷特字母	Deseret	80	80	德瑟雷特字母
 1 SMP	U+10450..U+1047F	萧伯纳字母	Shavian	48	48	萧伯纳字母
 1 SMP	U+10480..U+104AF	奥斯曼亚字母	Osmanya	48	40	奥斯曼亚字母
 1 SMP	U+104B0..U+104FF	欧塞奇字母	Osage	80	72	欧塞奇字母
 1 SMP	U+10500..U+1052F	爱尔巴桑字母	Elbasan	48	40	爱尔巴桑字母
 1 SMP	U+10530..U+1056F	高加索阿尔巴尼亚字母	Caucasian Albanian	64	53	高加索阿尔巴尼亚文
 1 SMP	U+10570..U+105BF	维斯库奇文	Vithkuqi	80	70	维斯库奇文
 1 SMP	U+10600..U+1077F	线形文字A	Linear A	384	341	线形文字A
 1 SMP	U+10780..U+107BF	拉丁字母扩展-F	Latin Extended-F	64	57	拉丁字母
 1 SMP	U+10800..U+1083F	塞浦路斯音节文字	Cypriot Syllabary	64	55	塞浦路斯音节文字
 1 SMP	U+10840..U+1085F	帝国亚拉姆文	Imperial Aramaic	32	31	帝国亚拉姆文字
 1 SMP	U+10860..U+1087F	帕尔迈拉字母	Palmyrene	32	32	帕尔迈拉字母
 1 SMP	U+10880..U+108AF	纳巴泰字母	Nabataean	48	40	纳巴泰字母
 1 SMP	U+108E0..U+108FF	哈特拉文	Hatran	32	26	哈特拉文
 1 SMP	U+10900..U+1091F	腓尼基字母	Phoenician	32	29	腓尼基字母
 1 SMP	U+10920..U+1093F	吕底亚字母	Lydian	32	27	吕底亚字母
 1 SMP	U+10980..U+1099F	麦罗埃文圣书体	Meroitic Hieroglyphs	32	32	麦罗埃文圣书体
 1 SMP	U+109A0..U+109FF	麦罗埃文草书体	Meroitic Cursive	96	90	麦罗埃文草书体
 1 SMP	U+10A00..U+10A5F	佉卢文	Kharoshthi	96	68	佉卢文
 1 SMP	U+10A60..U+10A7F	古南阿拉伯字母	Old South Arabian	32	32	古南阿拉伯字母
 1 SMP	U+10A80..U+10A9F	古北阿拉伯字母	Old North Arabian	32	32	古北阿拉伯字母
 1 SMP	U+10AC0..U+10AFF	摩尼字母	Manichaean	64	51	摩尼字母
 1 SMP	U+10B00..U+10B3F	阿维斯陀字母	Avestan	64	61	阿维斯陀字母
 1 SMP	U+10B40..U+10B5F	碑刻帕提亚文	Inscriptional Parthian	32	30	碑刻帕提亚文
 1 SMP	U+10B60..U+10B7F	碑刻巴列维文	Inscriptional Pahlavi	32	27	碑刻巴列维文
 1 SMP	U+10B80..U+10BAF	诗篇巴列维文	Psalter Pahlavi	48	29	诗篇巴列维文
 1 SMP	U+10C00..U+10C4F	古突厥文	Old Turkic	80	73	古突厥文
 1 SMP	U+10C80..U+10CFF	古匈牙利字母	Old Hungarian	128	108	古匈牙利字母
 1 SMP	U+10D00..U+10D3F	哈乃斐罗兴亚文字	Hanifi Rohingya	64	50	哈乃斐罗兴亚文字
 1 SMP	U+10E60..U+10E7F	卢米文数字	Rumi Numeral Symbols	32	31	阿拉伯文
 1 SMP	U+10E80..U+10EBF	雅兹迪文	Yezidi	64	47	雅兹迪文
 1 SMP	U+10EC0..U+10EFF	阿拉伯字母扩展-C	Arabic Extended-C	64	3	阿拉伯字母
 1 SMP	U+10F00..U+10F2F	古粟特字母	Old Sogdian	48	40	古粟特字母
 1 SMP	U+10F30..U+10F6F	粟特字母	Sogdian	64	42	粟特字母
 1 SMP	U+10F70..U+10FAF	回鹘字母	Old Uyghur	64	26	回鹘字母
 1 SMP	U+10FB0..U+10FDF	花剌子模字母	Chorasmian	48	28	花剌子模字母
 1 SMP	U+10FE0..U+10FFF	埃利迈文	Elymaic	32	23	埃利迈文
 1 SMP	U+11000..U+1107F	婆罗米文	Brahmi	128	115	婆罗米文
 1 SMP	U+11080..U+110CF	凯提文	Kaithi	80	68	凯提文
 1 SMP	U+110D0..U+110FF	索拉僧平文字	Sora Sompeng	48	35	索拉僧平文字
 1 SMP	U+11100..U+1114F	查克马文	Chakma	80	71	查克马文
 1 SMP	U+11150..U+1117F	马哈佳尼文	Mahajani	48	39	马哈佳尼文
 1 SMP	U+11180..U+111DF	夏拉达文	Sharada	96	96	夏拉达文
 1 SMP	U+111E0..U+111FF	古僧伽罗文数字	Sinhala Archaic Numbers	32	20	古僧伽罗文数字
 1 SMP	U+11200..U+1124F	可吉文	Khojki	80	65	可吉文
 1 SMP	U+11280..U+112AF	穆尔塔尼文	Multani	48	38	穆尔塔尼文
 1 SMP	U+112B0..U+112FF	库达瓦迪文	Khudawadi	80	69	库达瓦迪文
 1 SMP	U+11300..U+1137F	古兰塔文	Grantha	128	86	古兰塔文
 1 SMP	U+11400..U+1147F	纽瓦字母	Newa	128	97	纽瓦字母
 1 SMP	U+11480..U+114DF	底罗仆多文	Tirhuta	96	82	底罗仆多文
 1 SMP	U+11580..U+115FF	悉昙文字	Siddham	128	92	悉昙文字
 1 SMP	U+11600..U+1165F	莫迪文	Modi	96	79	莫迪文
 1 SMP	U+11660..U+1167F	蒙古文补充	Mongolian Supplement	32	13	蒙古文
 1 SMP	U+11680..U+116CF	塔克里文	Takri	80	68	塔克里文
 1 SMP	U+11700..U+1174F	阿洪姆文	Ahom	80	65	阿洪姆文
 1 SMP	U+11800..U+1184F	多格拉文	Dogra	80	60	多格拉文
 1 SMP	U+118A0..U+118FF	瓦兰齐地文	Warang Citi	96	84	瓦兰齐地文
 1 SMP	U+11900..U+1195F	岛屿字母	Dhives Akuru (Dives Akuru)	96	72	岛屿字母
 1 SMP	U+119A0..U+119FF	南迪城文	Nandinagari	96	65	南迪城文
 1 SMP	U+11A00..U+11A4F	札那巴札尔方形字母	Zanabazar Square	80	72	札那巴札尔方形字母
 1 SMP	U+11A50..U+11AAF	索永布文字	Soyombo	96	83	索永布文字
 1 SMP	U+11AB0..U+11ABF	加拿大原住民音节文字扩展-A	Unified Canadian Aboriginal Syllabics Extended-A	16	16	加拿大原住民音节文字
 1 SMP	U+11AC0..U+11AFF	包钦豪文	Pau Cin Hau	64	57	包钦豪文
 1 SMP	U+11B00..U+11B5F	天城文扩展-A	Devanagari Extended-A	96	10	天城文
 1 SMP	U+11C00..U+11C6F	拜克舒基文	Bhaiksuki	112	97	拜克舒基文
 1 SMP	U+11C70..U+11CBF	玛钦文	Marchen	80	68	玛钦文
 1 SMP	U+11D00..U+11D5F	马萨拉姆贡德文字	Masaram Gondi	96	75	马萨拉姆贡德文字
 1 SMP	U+11D60..U+11DAF	贡贾拉贡德文字	Gunjala Gondi	80	63	贡贾拉贡德文字
 1 SMP	U+11EE0..U+11EFF	望加锡文	Makasar	32	25	望加锡文
 1 SMP	U+11F00..U+11F5F	卡维文	Kawi	96	86	卡维文
 1 SMP	U+11FB0..U+11FBF	老傈僳文补充	Lisu Supplement	16	1	老傈僳文
 1 SMP	U+11FC0..U+11FFF	泰米尔文补充	Tamil Supplement	64	51	泰米尔文
 1 SMP	U+12000..U+123FF	楔形文字	Cuneiform	1,024	922	楔形文字
 1 SMP	U+12400..U+1247F	楔形文字数字和标点符号	Cuneiform Numbers and Punctuation	128	116	楔形文字
 1 SMP	U+12480..U+1254F	早期王朝楔形文字	Early Dynastic Cuneiform	208	196	楔形文字
 1 SMP	U+12F90..U+12FFF	塞浦路斯-米诺斯文字	Cypro-Minoan	112	99	塞浦路斯-米诺斯文字
 1 SMP	U+13000..U+1342F	埃及圣书体	Egyptian Hieroglyphs	1,072	1,072	埃及圣书体
 1 SMP	U+13430..U+1345F	埃及圣书体格式控制	Egyptian Hieroglyph Format Controls	48	38	埃及圣书体
 1 SMP	U+14400..U+1467F	安纳托利亚象形文字	Anatolian Hieroglyphs	640	583	安纳托利亚象形文字
 1 SMP	U+16800..U+16A3F	巴姆穆文字补充	Bamum Supplement	576	569	巴姆穆文字
 1 SMP	U+16A40..U+16A6F	默禄文	Mro	48	43	默禄文
 1 SMP	U+16A70..U+16ACF	唐萨文	Tangsa	96	89	唐萨文
 1 SMP	U+16AD0..U+16AFF	巴萨文	Bassa Vah	48	36	巴萨文
 1 SMP	U+16B00..U+16B8F	救世苗文	Pahawh Hmong	144	127	救世苗文
 1 SMP	U+16E40..U+16E9F	梅德法伊德林文	Medefaidrin	96	91	梅德法伊德林文
 1 SMP	U+16F00..U+16F9F	柏格理苗文	Miao	160	149	柏格理苗文
 1 SMP	U+16FE0..U+16FFF	表意符号和标点符号	Ideographic Symbols and Punctuation	32	7	汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个)
 1 SMP	U+17000..U+187FF	西夏文	Tangut	6,144	6,136	西夏文
 1 SMP	U+18800..U+18AFF	西夏文部件	Tangut Components	768	768	西夏文
 1 SMP	U+18B00..U+18CFF	契丹小字	Khitan Small Script	512	470	契丹小字
 1 SMP	U+18D00..U+18D7F	西夏文补充	Tangut Supplement	128	9	西夏文
 1 SMP	U+1AFF0..U+1AFFF	假名扩展-B	Kana Extended-B	16	13	片假名
 1 SMP	U+1B000..U+1B0FF	假名补充	Kana Supplement	256	256	平假名(255个)、片假名(1个)
 1 SMP	U+1B100..U+1B12F	假名扩展-A	Kana Extended-A	48	35	平假名(32个)、片假名(3个)
 1 SMP	U+1B130..U+1B16F	小型假名扩展	Small Kana Extension	64	9	平假名 (4个)、片假名 (5个)
 1 SMP	U+1B170..U+1B2FF	女书	Nushu	400	396	女书
 1 SMP	U+1BC00..U+1BC9F	杜普雷速记	Duployan	160	143	杜普雷速记
 1 SMP	U+1BCA0..U+1BCAF	速记格式控制符	Shorthand Format Controls	16	4	通用
 1 SMP	U+1CF00..U+1CFCF	赞玫尼圣歌音乐符号	Znamenny Musical Notation	208	185	赞玫尼圣歌音乐符号
 1 SMP	U+1D000..U+1D0FF	拜占庭音乐符号	Byzantine Musical Symbols	256	246	通用
 1 SMP	U+1D100..U+1D1FF	音乐符号	Musical Symbols	256	233	通用(211个)、继承(22个)
 1 SMP	U+1D200..U+1D24F	古希腊音乐记号	Ancient Greek Musical Notation	80	70	希腊语
 1 SMP	U+1D2C0..U+1D2DF	卡克托维克数字	Kaktovik Numerals	32	20	因努伊特数字
 1 SMP	U+1D2E0..U+1D2FF	玛雅数字	Mayan Numerals	32	20	通用
 1 SMP	U+1D300..U+1D35F	太玄经符号	Tai Xuan Jing Symbols	96	87	通用
 1 SMP	U+1D360..U+1D37F	算筹	Counting Rod Numerals	32	25	通用
 1 SMP	U+1D400..U+1D7FF	字母和数字符号	Mathematical Alphanumeric Symbols	1,024	996	通用
 1 SMP	U+1D800..U+1DAAF	萨顿书写符号	Sutton SignWriting	688	672	萨顿书写符号
 1 SMP	U+1DF00..U+1DFFF	拉丁字母扩展-G	Latin Extended-G	256	37	拉丁字母
 1 SMP	U+1E000..U+1E02F	格拉哥里字母补充	Glagolitic Supplement	48	38	格拉哥里字母
 1 SMP	U+1E030..U+1E08F	西里尔字母扩展-D	Cyrillic Extended-D	96	63	西里尔字母
 1 SMP	U+1E100..U+1E14F	创世纪苗文	Nyiakeng Puachue Hmong	80	71	创世纪苗文
 1 SMP	U+1E290..U+1E2BF	投投文	Toto	48	31	投投文
 1 SMP	U+1E2C0..U+1E2FF	文乔字母	Wancho	64	59	文乔字母
 1 SMP	U+1E4D0..U+1E4FF	蒙达里字母	Nag Mundari	48	42	蒙达里字母
 1 SMP	U+1E7E0..U+1E7FF	埃塞俄比亚字母扩展-B	Ethiopic Extended-B	32	28	吉兹字母
 1 SMP	U+1E800..U+1E8DF	门德基卡库文	Mende Kikakui	224	213	门德基卡库文
 1 SMP	U+1E900..U+1E95F	阿德拉姆字母	Adlam	96	88	阿德拉姆字母
 1 SMP	U+1EC70..U+1ECBF	印度西亚格数字	Indic Siyaq Numbers	80	68	通用
 1 SMP	U+1ED00..U+1ED4F	奥斯曼西亚格数字	Ottoman Siyaq Numbers	80	61	通用
 1 SMP	U+1EE00..U+1EEFF	阿拉伯字母数字符号	Arabic Mathematical Alphabetic Symbols	256	143	阿拉伯文
 1 SMP	U+1F000..U+1F02F	麻将牌	Mahjong Tiles	48	44	通用
 1 SMP	U+1F030..U+1F09F	多米诺骨牌	Domino Tiles	112	100	通用
 1 SMP	U+1F0A0..U+1F0FF	扑克牌	Playing Cards	96	82	通用
 1 SMP	U+1F100..U+1F1FF	带圈字母数字补充	Enclosed Alphanumeric Supplement	256	200	通用
 1 SMP	U+1F200..U+1F2FF	带圈表意文字补充	Enclosed Ideographic Supplement	256	64	平假名(1个)、通用(63个)
 1 SMP	U+1F300..U+1F5FF	杂项符号和象形文字	Miscellaneous Symbols and Pictographs	768	768	通用
 1 SMP	U+1F600..U+1F64F	表情符号	Emoticons	80	80	通用
 1 SMP	U+1F650..U+1F67F	装饰符号	Ornamental Dingbats	48	48	通用
 1 SMP	U+1F680..U+1F6FF	交通和地图符号	Transport and Map Symbols	128	118	通用
 1 SMP	U+1F700..U+1F77F	炼金术符号	Alchemical Symbols	128	124	通用
 1 SMP	U+1F780..U+1F7FF	几何图形扩展	Geometric Shapes Extended	128	103	通用
 1 SMP	U+1F800..U+1F8FF	追加箭头-C	Supplemental Arrows-C	256	150	通用
 1 SMP	U+1F900..U+1F9FF	补充符号和象形文字	Supplemental Symbols and Pictographs	256	256	通用
 1 SMP	U+1FA00..U+1FA6F	棋类符号	Chess Symbols	112	98	通用
 1 SMP	U+1FA70..U+1FAFF	符号和象形文字扩展-A	Symbols and Pictographs Extended-A	144	107	通用
 1 SMP	U+1FB00..U+1FBFF	遗留计算符号	Symbols for Legacy Computing	256	212	通用
 2 SIP	U+20000..U+2A6DF	中日韩统一表意文字扩展区B	CJK Unified Ideographs Extension B	42,720	42,720	汉字
 2 SIP	U+2A700..U+2B73F	中日韩统一表意文字扩展区C	CJK Unified Ideographs Extension C	4,160	4,154	汉字
 2 SIP	U+2B740..U+2B81F	中日韩统一表意文字扩展区D	CJK Unified Ideographs Extension D	224	222	汉字
 2 SIP	U+2B820..U+2CEAF	中日韩统一表意文字扩展区E	CJK Unified Ideographs Extension E	5,776	5,762	汉字
 2 SIP	U+2CEB0..U+2EBEF	中日韩统一表意文字扩展区F	CJK Unified Ideographs Extension F	7,488	7,473	汉字
 2 SIP	U+2F800..U+2FA1F	中日韩相容表意文字补充区	CJK Compatibility Ideographs Supplement	544	542	汉字
 3 TIP	U+30000..U+3134F	中日韩统一表意文字扩展区G	CJK Unified Ideographs Extension G	4944	4939	汉字
 3 TIP	U+31350..U+323AF	中日韩统一表意文字扩展区H	CJK Unified Ideographs Extension H	4192	4192	汉字
14 SSP	U+E0000..U+E007F	标签	Tags	128	97	通用
14 SSP	U+E0100..U+E01EF	变体选择符补充	Variation Selectors Supplement	240	240	继承
15 PUA-A	U+F0000..U+FFFFF	补充私人使用区-A	Supplementary Private Use Area-A	65,536	65,534	未知
16 PUA-B	U+100000..U+10FFFF	补充私人使用区-B	Supplementary Private Use Area-B	65,536	65,534	未知
 
a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。

[Unicode区段与包含的文字]
注: TAB 键使用 50个空格。

平面

区段范围

区段名称

码位数[a]

已定义字元数

文字[b][c][d][e][f]

汉语

英语

 0 BMP

U+0000..U+007F

基本拉丁字母

Basic Latin[g]

128

128

拉丁字母(52个)、通用(76个)

 0 BMP

U+0080..U+00FF

拉丁字母补充-1

Latin-1 Supplement[h]

128

128

拉丁字母(64个)、通用(64个)

 0 BMP

U+0100..U+017F

拉丁字母扩展-A

Latin Extended-A

128

128

拉丁

 0 BMP

U+0180..U+024F

拉丁字母扩展-B

Latin Extended-B

208

208

拉丁

 0 BMP

U+0250..U+02AF

国际音标扩展

IPA Extensions

96

96

拉丁

 0 BMP

U+02B0..U+02FF

占位修饰符号

Spacing Modifier Letters

80

80

注音符号(2个)、拉丁(14个)、通用(64个)

 0 BMP

U+0300..U+036F

组合附加符号

Combining Diacritical Marks

112

112

继承

 0 BMP

U+0370..U+03FF

希腊字母和科普特字母

Greek and Coptic

144

135

科普特字母(14个)、希腊字母(117个)、通用(4个)

 0 BMP

U+0400..U+04FF

西里尔字母

Cyrillic

256

256

西里尔字母(254个)、继承(2个)

 0 BMP

U+0500..U+052F

西里尔字母补充

Cyrillic Supplement

48

48

西里尔字母

 0 BMP

U+0530..U+058F

亚美尼亚字母

Armenian

96

91

亚美尼亚字母

 0 BMP

U+0590..U+05FF

希伯来文字母

Hebrew

112

88

希伯来字母

 0 BMP

U+0600..U+06FF

阿拉伯文字母

Arabic

256

256

阿拉伯字母(238个)、通用(6个)、继承(12个)

 0 BMP

U+0700..U+074F

叙利亚字母

Syriac

80

77

叙利亚字母

 0 BMP

U+0750..U+077F

阿拉伯文补充

Arabic Supplement

48

48

阿拉伯文

 0 BMP

U+0780..U+07BF

它拿字母

Thaana

64

50

它拿字母(塔纳语)

 0 BMP

U+07C0..U+07FF

西非书面文字

NKo

64

62

西非书面文字

 0 BMP

U+0800..U+083F

撒玛利亚字母

Samaritan

64

61

撒玛利亚字母

 0 BMP

U+0840..U+085F

曼达安字母

Mandaic

32

29

曼达安字母

 0 BMP

U+0860..U+086F

叙利亚文补充

Syriac Supplement

16

11

叙利亚文

 0 BMP

U+0870..U+089F

阿拉伯字母扩展-B

Arabic Extended-B

48

41

阿拉伯字母

 0 BMP

U+08A0..U+08FF

阿拉伯字母扩展-A

Arabic Extended-A

96

96

阿拉伯字母(95个)、通用(1个)

 0 BMP

U+0900..U+097F

天城文(梵文)

Devanagari

128

128

天城文(122个)、通用(2个)、继承(4个)

 0 BMP

U+0980..U+09FF

孟加拉文

Bengali

128

96

孟加拉文

 0 BMP

U+0A00..U+0A7F

古木基文

Gurmukhi

128

80

古木基文

 0 BMP

U+0A80..U+0AFF

古吉拉特文

Gujarati

128

91

古吉拉特文

 0 BMP

U+0B00..U+0B7F

奥里亚文

Oriya

128

91

奥里亚文

 0 BMP

U+0B80..U+0BFF

泰米尔文

Tamil

128

72

泰米尔文

 0 BMP

U+0C00..U+0C7F

泰卢固文

Telugu

128

100

泰卢固文

 0 BMP

U+0C80..U+0CFF

卡纳达文

Kannada

128

91

卡纳达文

 0 BMP

U+0D00..U+0D7F

马拉雅拉姆文

Malayalam

128

118

马拉雅拉姆文

 0 BMP

U+0D80..U+0DFF

僧伽罗文

Sinhala

128

91

僧伽罗文

 0 BMP

U+0E00..U+0E7F

泰文

Thai

128

87

泰文(86个)、通用(1个)

 0 BMP

U+0E80..U+0EFF

寮文(老挝语)

Lao

128

83

寮文

 0 BMP

U+0F00..U+0FFF

藏文

Tibetan

256

211

藏文字母(207个)、通用(4个)

 0 BMP

U+1000..U+109F

缅甸文

Myanmar

160

160

缅文

 0 BMP

U+10A0..U+10FF

格鲁吉亚字母

Georgian

96

88

格鲁吉亚字母(87个)、通用(1个)

 0 BMP

U+1100..U+11FF

谚文字母

Hangul Jamo

256

256

谚文(朝鲜文)

 0 BMP

U+1200..U+137F

埃塞俄比亚字母

Ethiopic

384

358

吉兹字母

 0 BMP

U+1380..U+139F

埃塞俄比亚字母补充

Ethiopic Supplement

32

26

吉兹字母

 0 BMP

U+13A0..U+13FF

切罗基文

Cherokee

96

92

切罗基文

 0 BMP

U+1400..U+167F

统一加拿大原住民音节文字

Unified Canadian Aboriginal Syllabics

640

640

加拿大原住民音节文字

 0 BMP

U+1680..U+169F

欧甘字母

Ogham

32

29

欧甘字母

 0 BMP

U+16A0..U+16FF

卢恩字母

Runic

96

89

卢恩字母(86个)、通用(3个)

 0 BMP

U+1700..U+171F

他加禄字母

Tagalog

32

23

他加禄字母

 0 BMP

U+1720..U+173F

哈努诺文

Hanunoo

32

23

哈努诺字母(21个)、通用(2个)

 0 BMP

U+1740..U+175F

布希德字母

Buhid

32

20

布希德文

 0 BMP

U+1760..U+177F

塔格班瓦字母

Tagbanwa

32

18

塔格班瓦字母

 0 BMP

U+1780..U+17FF

高棉文

Khmer

128

114

高棉文

 0 BMP

U+1800..U+18AF

蒙古文

Mongolian

176

158

蒙古文字母(155个)、通用(3个)

 0 BMP

U+18B0..U+18FF

统一加拿大原住民音节文字扩展

Unified Canadian Aboriginal Syllabics Extended

80

70

加拿大原住民音节文字

 0 BMP

U+1900..U+194F

林布文

Limbu

80

68

林布文

 0 BMP

U+1950..U+197F

德宏傣文

Tai Le

48

35

德宏傣文

 0 BMP

U+1980..U+19DF

新傣仂文

New Tai Le

96

83

新傣仂文

 0 BMP

U+19E0..U+19FF

高棉文符号

Khmer Symbols

32

32

高棉文

 0 BMP

U+1A00..U+1A1F

布吉文

Buginese

32

30

布吉文

 0 BMP

U+1A20..U+1AAF

老傣文

Tai Tham

144

127

老傣仂文

 0 BMP

U+1AB0..U+1AFF

组合附加符号扩展

Combining Diacritical Marks Extended

80

31

继承

 0 BMP

U+1B00..U+1B7F

巴厘字母

Balinese

128

124

巴厘字母

 0 BMP

U+1B80..U+1BBF

巽他字母

Sundanese

64

64

巽他字母

 0 BMP

U+1BC0..U+1BFF

巴塔克字母

Batak

64

56

巴塔克字母

 0 BMP

U+1C00..U+1C4F

绒巴文

Lepcha

80

74

绒巴文

 0 BMP

U+1C50..U+1C7F

桑塔利文

Ol Chiki

48

48

桑塔利文

 0 BMP

U+1C80..U+1C8F

西里尔字母扩展-C

Cyrillic Extended-C

16

9

西里尔字母

 0 BMP

U+1C90..U+1CBF

格鲁吉亚字母扩展

Georgian Extended

48

46

格鲁吉亚字母

 0 BMP

U+1CC0..U+1CCF

巽他字母补充

Sundanese Supplement

16

8

巽他字母

 0 BMP

U+1CD0..U+1CFF

吠陀扩展

Vedic Extensions

48

43

通用(16个)、继承(27个)

 0 BMP

U+1D00..U+1D7F

音标扩展

Phonetic Extensions

128

128

西里尔字母(2个)、希腊字母(15个)、拉丁字母(111个)

 0 BMP

U+1D80..U+1DBF

音标扩展补充

Phonetic Extensions Supplement

64

64

希腊字母(1个)、拉丁字母(63个)

 0 BMP

U+1DC0..U+1DFF

组合附加符号补充

Combining Diacritical Marks Supplement

64

64

继承

 0 BMP

U+1E00..U+1EFF

拉丁字母扩展附加

Latin Extended Additional

256

256

拉丁

 0 BMP

U+1F00..U+1FFF

希腊字母扩展

Greek Extended

256

233

希腊字母

 0 BMP

U+2000..U+206F

一般标点

General Punctuation

112

111

通用(109个)、继承(2个)

 0 BMP

U+2070..U+209F

上标及下标

Superscripts and Subscripts

48

42

拉丁(15个)、通用(27个)

 0 BMP

U+20A0..U+20CF

货币符号

Currency Symbols

48

33

通用

 0 BMP

U+20D0..U+20FF

符号用组合附加符号

Combining Diacritical Marks for Symbols

48

33

继承

 0 BMP

U+2100..U+214F

类字母符号

Letterlike Symbols

80

80

希腊文(1个)、拉丁(4个)、通用(75个)

 0 BMP

U+2150..U+218F

数字形式

Number Forms

64

60

拉丁(41个)、通用(19个)

 0 BMP

U+2190..U+21FF

箭头

Arrows

112

112

通用

 0 BMP

U+2200..U+22FF

数学运算符

Mathematical Operators

256

256

通用

 0 BMP

U+2300..U+23FF

杂项技术符号

Miscellaneous Technical

256

256

通用

 0 BMP

U+2400..U+243F

控制图形

Control Pictures

64

39

通用

 0 BMP

U+2440..U+245F

光学字符识别

Optical Character Recognition

32

11

通用

 0 BMP

U+2460..U+24FF

带圈字母数字

Enclosed Alphanumerics

160

160

通用

 0 BMP

U+2500..U+257F

制表符

Box Drawing

128

128

通用

 0 BMP

U+2580..U+259F

方块元素

Block Elements

32

32

通用

 0 BMP

U+25A0..U+25FF

几何图形

Geometric Shapes

96

96

通用

 0 BMP

U+2600..U+26FF

杂项符号

Miscellaneous Symbols

256

256

通用

 0 BMP

U+2700..U+27BF

装饰符号

Dingbats

192

192

通用

 0 BMP

U+27C0..U+27EF

杂项数学符号-A

Miscellaneous Mathematical Symbols-A

48

48

通用

 0 BMP

U+27F0..U+27FF

追加箭头-A

Supplemental Arrows-A

16

16

通用

 0 BMP

U+2800..U+28FF

点字图案

Braille Patterns

256

256

盲文

 0 BMP

U+2900..U+297F

追加箭头-B

Supplemental Arrows-B

128

128

通用

 0 BMP

U+2980..U+29FF

杂项数学符号-B

Miscellaneous Mathematical Symbols-B

128

128

通用

 0 BMP

U+2A00..U+2AFF

补充数学运算符

Supplemental Mathematical Operators

256

256

通用

 0 BMP

U+2B00..U+2BFF

杂项符号和箭头

Miscellaneous Symbols and Arrows

256

253

通用

 0 BMP

U+2C00..U+2C5F

格拉哥里字母

Glagolitic

96

96

格拉哥里字母

 0 BMP

U+2C60..U+2C7F

拉丁字母扩展-C

Latin Extended-C

32

32

拉丁字母

 0 BMP

U+2C80..U+2CFF

科普特字母

Coptic

128

123

科普特字母

 0 BMP

U+2D00..U+2D2F

格鲁吉亚字母补充

Georgian Supplement

48

40

格鲁吉亚字母

 0 BMP

U+2D30..U+2D7F

提非纳文

Tifinagh

80

59

提非纳文

 0 BMP

U+2D80..U+2DDF

埃塞俄比亚字母扩展

Ethiopic Extended

96

79

吉兹字母

 0 BMP

U+2DE0..U+2DFF

西里尔字母扩展-A

Cyrillic Extended-A

32

32

西里尔字母

 0 BMP

U+2E00..U+2E7F

补充标点

Supplemental Punctuation

128

94

通用

 0 BMP

U+2E80..U+2EFF

中日韩汉字部首补充

CJK Radicals Supplement

128

115

汉字

 0 BMP

U+2F00..U+2FDF

康熙部首

Kangxi Radicals

224

214

汉字

 0 BMP

U+2FF0..U+2FFF

表意文字描述字符

Ideographic Description Characters

16

12

通用(汉字结构描述字符)

 0 BMP

U+3000..U+303F

中日韩符号和标点

CJK Symbols and Punctuation

64

64

汉字(15个)、谚文(2个)、通用(43个)、继承(4个)

 0 BMP

U+3040..U+309F

日文平假名

Hiragana

96

93

平假名(89个)、通用(2个)、继承(2个)

 0 BMP

U+30A0..U+30FF

日文片假名

Katakana

96

96

片假名(93个)、通用(3个)

 0 BMP

U+3100..U+312F

注音符号

Bopomofo

48

43

注音符号

 0 BMP

U+3130..U+318F

谚文相容字母

Hangul Compatibility Jamo

96

94

谚文(朝鲜文兼容字母)

 0 BMP

U+3190..U+319F

汉文训读符号

Kanbun

16

16

通用

 0 BMP

U+31A0..U+31BF

注音符号扩展

Bopomofo Extended

32

32

注音符号(闽南语、客家语扩展)

 0 BMP

U+31C0..U+31EF

中日韩笔画

CJK Strokes

48

36

通用

 0 BMP

U+31F0..U+31FF

片假名语音扩展

Katakana Phonetic Extensions

16

16

片假名

 0 BMP

U+3200..U+32FF

中日韩围绕字元及月份

Enclosed CJK Letters and Months

256

255

谚文(62个)、片假名(47个)、通用(146个)

 0 BMP

U+3300..U+33FF

中日韩相容字元(日期合并)

CJK Compatibility

256

256

片假名(88个)、通用(168个)//中文字符开始

 0 BMP

U+3400..U+4DBF

中日韩统一表意文字扩展区A

CJK Unified Ideographs Extension A

6,592

6,592

汉字

 0 BMP

U+4DC0..U+4DFF

易经六十四卦符号

Yijing Hexagram Symbols

64

64

通用

 0 BMP

U+4E00..U+9FFF

中日韩统一表意文字 (基本区)

CJK Unified Ideographs

20,992

20,992

汉字//中文字符结束

 0 BMP

U+A000..U+A48F

彝文音节

Yi Syllables

1,168

1,165

彝文

 0 BMP

U+A490..U+A4CF

彝文部首

Yi Radicals

64

55

彝文

 0 BMP

U+A4D0..U+A4FF

傈僳文

Lisu

48

48

老傈僳文

 0 BMP

U+A500..U+A63F

瓦伊文

Vai

320

300

瓦伊文

 0 BMP

U+A640..U+A69F

西里尔字母扩展-B

Cyrillic Extended-B

96

96

西里尔字母

 0 BMP

U+A6A0..U+A6FF

巴姆穆文字

Bamum

96

88

巴姆穆文字

 0 BMP

U+A700..U+A71F

声调修饰符号

Modifier Tone Letters

32

32

通用

 0 BMP

U+A720..U+A7FF

拉丁字母扩展-D

Latin Extended-D

224

193

拉丁(188个)、通用(5个)

 0 BMP

U+A800..U+A82F

锡尔赫特文

Syloti Nagri

48

45

锡尔赫特文

 0 BMP

U+A830..U+A83F

通用印度数字形式

Common Indic Number Forms

16

10

通用

 0 BMP

U+A840..U+A87F

八思巴文

Phags-pa

64

56

八思巴字

 0 BMP

U+A880..U+A8DF

索拉什特拉文

Saurashtra

96

82

索拉什特拉文

 0 BMP

U+A8E0..U+A8FF

天城文扩展

Devanagari Extended

32

32

天城文

 0 BMP

U+A900..U+A92F

克耶字母

Kayah Li

48

48

克耶字母(47个)、通用(1个)

 0 BMP

U+A930..U+A95F

勒姜字母

Rejang

48

37

勒姜字母

 0 BMP

U+A960..U+A97F

谚文字母扩展-A

Hangul Jamo Extended-A

32

29

谚文

 0 BMP

U+A980..U+A9DF

爪哇字母

Javanese

96

91

爪哇字母(90个)、通用(1个)

 0 BMP

U+A9E0..U+A9FF

缅甸文扩展-B

Myanmar Extended-B

32

31

缅甸文

 0 BMP

U+AA00..U+AA5F

占文

Cham

96

83

占文

 0 BMP

U+AA60..U+AA7F

缅甸文扩展-A

Myanmar Extended-A

32

32

缅文

 0 BMP

U+AA80..U+AADF

傣越文

Tai Viet

96

72

傣越文

 0 BMP

U+AAE0..U+AAFF

梅泰文扩展

Meetei Mayek Extensions

32

23

曼尼普尔文

 0 BMP

U+AB00..U+AB2F

埃塞俄比亚字母扩展-A

Ethiopic Extended-A

48

32

吉兹字母

 0 BMP

U+AB30..U+AB6F

拉丁字母扩展-E

Latin Extended-E

64

60

拉丁(56个)、希腊语(1个)、通用(3个)

 0 BMP

U+AB70..U+ABBF

切罗基文补充

Cherokee Supplement

80

80

切罗基文

 0 BMP

U+ABC0..U+ABFF

梅泰文

Meetei Mayek

64

56

梅泰文

 0 BMP

U+AC00..U+D7AF

谚文音节

Hangul Syllables

11,184

11,172

谚文(朝鲜文)

 0 BMP

U+D7B0..U+D7FF

谚文字母扩展-B

Hangul Jamo Extended-B

80

72

谚文(朝鲜文)

 0 BMP

U+D800..U+DB7F

高半代用区

High Surrogates

896

0

未知

 0 BMP

U+DB80..U+DBFF

高半私人代用区

High Private Use Surrogates

128

0

未知

 0 BMP

U+DC00..U+DFFF

低半代用区

Low Surrogates

1,024

0

未知

 0 BMP

U+E000..U+F8FF

私用区

Private Use Area

6,400

6,400

未知

 0 BMP

U+F900..U+FAFF

中日韩兼容表意文字

CJK Compatibility Ideographs

512

472

汉字

 0 BMP

U+FB00..U+FB4F

字母表达形式

Alphabetic Presentation Forms

80

58

亚美尼亚文(5个)、希伯来文(46个)、拉丁(7个)

 0 BMP

U+FB50..U+FDFF

阿拉伯字母表达形式-A

Arabic Presentation Forms-A

688

631

阿拉伯字母(629个)、通用(2个)

 0 BMP

U+FE00..U+FE0F

变体选择符

Variation Selectors

16

16

继承

 0 BMP

U+FE10..U+FE1F

竖排形式

Vertical Forms

16

10

通用(中文竖排标点)

 0 BMP

U+FE20..U+FE2F

组合用半符号

Combining Half Marks

16

16

西里尔字母(2个)、继承(14个)

 0 BMP

U+FE30..U+FE4F

中日韩相容形式

CJK Compatibility Forms

32

32

通用(竖排变体、下划线、顿号)

 0 BMP

U+FE50..U+FE6F

小写变体形式

Small Form Variants

32

26

通用

 0 BMP

U+FE70..U+FEFF

阿拉伯字母表达形式-B

Arabic Presentation Forms-B

144

141

阿拉伯字母(140个)、通用(1个)

 0 BMP

U+FF00..U+FFEF

半形及全形字符

Halfwidth and Fullwidth Forms

240

225

谚文(52个)、片假名(55个)、拉丁(52个)、通用(66个)|全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母

 0 BMP

U+FFF0..U+FFFF

特殊

Specials

16

5

通用

 1 SMP

U+10000..U+1007F

线形文字B音节文字

Linear B Syllabary

128

88

线形文字B

 1 SMP

U+10080..U+100FF

线形文字B表意文字

Linear B Ideograms

128

123

线形文字B

 1 SMP

U+10100..U+1013F

爱琴海数字

Aegean Numbers

64

57

通用

 1 SMP

U+10140..U+1018F

古希腊数字

Ancient Greek Numbers

80

79

希腊文

 1 SMP

U+10190..U+101CF

古代符号

Ancient Symbols

64

14

希腊文(1个)、通用(13个)

 1 SMP

U+101D0..U+101FF

斐斯托斯圆盘

Phaistos Disc

48

46

通用(45个)、继承(1个)

 1 SMP

U+10280..U+1029F

吕基亚字母

Lycian

32

29

吕基亚字母

 1 SMP

U+102A0..U+102DF

卡里亚字母

Carian

64

49

卡利亚字母

 1 SMP

U+102E0..U+102FF

科普特闰余数字

Coptic Epact Numbers

32

28

通用(27个)、继承(1个)

 1 SMP

U+10300..U+1032F

古意大利字母

Old Italic

48

39

古意大利字母

 1 SMP

U+10330..U+1034F

哥特字母

Gothic

32

27

哥特字母

 1 SMP

U+10350..U+1037F

古彼尔姆文

Old Permic

48

43

古彼尔姆文

 1 SMP

U+10380..U+1039F

乌加里特字母

Ugaritic

32

31

乌加里特字母

 1 SMP

U+103A0..U+103DF

古波斯楔形文字

Old Persian

64

50

古波斯楔形文字

 1 SMP

U+10400..U+1044F

德瑟雷特字母

Deseret

80

80

德瑟雷特字母

 1 SMP

U+10450..U+1047F

萧伯纳字母

Shavian

48

48

萧伯纳字母

 1 SMP

U+10480..U+104AF

奥斯曼亚字母

Osmanya

48

40

奥斯曼亚字母

 1 SMP

U+104B0..U+104FF

欧塞奇字母

Osage

80

72

欧塞奇字母

 1 SMP

U+10500..U+1052F

爱尔巴桑字母

Elbasan

48

40

爱尔巴桑字母

 1 SMP

U+10530..U+1056F

高加索阿尔巴尼亚字母

Caucasian Albanian

64

53

高加索阿尔巴尼亚文

 1 SMP

U+10570..U+105BF

维斯库奇文

Vithkuqi

80

70

维斯库奇文

 1 SMP

U+10600..U+1077F

线形文字A

Linear A

384

341

线形文字A

 1 SMP

U+10780..U+107BF

拉丁字母扩展-F

Latin Extended-F

64

57

拉丁字母

 1 SMP

U+10800..U+1083F

塞浦路斯音节文字

Cypriot Syllabary

64

55

塞浦路斯音节文字

 1 SMP

U+10840..U+1085F

帝国亚拉姆文

Imperial Aramaic

32

31

帝国亚拉姆文字

 1 SMP

U+10860..U+1087F

帕尔迈拉字母

Palmyrene

32

32

帕尔迈拉字母

 1 SMP

U+10880..U+108AF

纳巴泰字母

Nabataean

48

40

纳巴泰字母

 1 SMP

U+108E0..U+108FF

哈特拉文

Hatran

32

26

哈特拉文

 1 SMP

U+10900..U+1091F

腓尼基字母

Phoenician

32

29

腓尼基字母

 1 SMP

U+10920..U+1093F

吕底亚字母

Lydian

32

27

吕底亚字母

 1 SMP

U+10980..U+1099F

麦罗埃文圣书体

Meroitic Hieroglyphs

32

32

麦罗埃文圣书体

 1 SMP

U+109A0..U+109FF

麦罗埃文草书体

Meroitic Cursive

96

90

麦罗埃文草书体

 1 SMP

U+10A00..U+10A5F

佉卢文

Kharoshthi

96

68

佉卢文

 1 SMP

U+10A60..U+10A7F

古南阿拉伯字母

Old South Arabian

32

32

古南阿拉伯字母

 1 SMP

U+10A80..U+10A9F

古北阿拉伯字母

Old North Arabian

32

32

古北阿拉伯字母

 1 SMP

U+10AC0..U+10AFF

摩尼字母

Manichaean

64

51

摩尼字母

 1 SMP

U+10B00..U+10B3F

阿维斯陀字母

Avestan

64

61

阿维斯陀字母

 1 SMP

U+10B40..U+10B5F

碑刻帕提亚文

Inscriptional Parthian

32

30

碑刻帕提亚文

 1 SMP

U+10B60..U+10B7F

碑刻巴列维文

Inscriptional Pahlavi

32

27

碑刻巴列维文

 1 SMP

U+10B80..U+10BAF

诗篇巴列维文

Psalter Pahlavi

48

29

诗篇巴列维文

 1 SMP

U+10C00..U+10C4F

古突厥文

Old Turkic

80

73

古突厥文

 1 SMP

U+10C80..U+10CFF

古匈牙利字母

Old Hungarian

128

108

古匈牙利字母

 1 SMP

U+10D00..U+10D3F

哈乃斐罗兴亚文字

Hanifi Rohingya

64

50

哈乃斐罗兴亚文字

 1 SMP

U+10E60..U+10E7F

卢米文数字

Rumi Numeral Symbols

32

31

阿拉伯文

 1 SMP

U+10E80..U+10EBF

雅兹迪文

Yezidi

64

47

雅兹迪文

 1 SMP

U+10EC0..U+10EFF

阿拉伯字母扩展-C

Arabic Extended-C

64

3

阿拉伯字母

 1 SMP

U+10F00..U+10F2F

古粟特字母

Old Sogdian

48

40

古粟特字母

 1 SMP

U+10F30..U+10F6F

粟特字母

Sogdian

64

42

粟特字母

 1 SMP

U+10F70..U+10FAF

回鹘字母

Old Uyghur

64

26

回鹘字母

 1 SMP

U+10FB0..U+10FDF

花剌子模字母

Chorasmian

48

28

花剌子模字母

 1 SMP

U+10FE0..U+10FFF

埃利迈文

Elymaic

32

23

埃利迈文

 1 SMP

U+11000..U+1107F

婆罗米文

Brahmi

128

115

婆罗米文

 1 SMP

U+11080..U+110CF

凯提文

Kaithi

80

68

凯提文

 1 SMP

U+110D0..U+110FF

索拉僧平文字

Sora Sompeng

48

35

索拉僧平文字

 1 SMP

U+11100..U+1114F

查克马文

Chakma

80

71

查克马文

 1 SMP

U+11150..U+1117F

马哈佳尼文

Mahajani

48

39

马哈佳尼文

 1 SMP

U+11180..U+111DF

夏拉达文

Sharada

96

96

夏拉达文

 1 SMP

U+111E0..U+111FF

古僧伽罗文数字

Sinhala Archaic Numbers

32

20

古僧伽罗文数字

 1 SMP

U+11200..U+1124F

可吉文

Khojki

80

65

可吉文

 1 SMP

U+11280..U+112AF

穆尔塔尼文

Multani

48

38

穆尔塔尼文

 1 SMP

U+112B0..U+112FF

库达瓦迪文

Khudawadi

80

69

库达瓦迪文

 1 SMP

U+11300..U+1137F

古兰塔文

Grantha

128

86

古兰塔文

 1 SMP

U+11400..U+1147F

纽瓦字母

Newa

128

97

纽瓦字母

 1 SMP

U+11480..U+114DF

底罗仆多文

Tirhuta

96

82

底罗仆多文

 1 SMP

U+11580..U+115FF

悉昙文字

Siddham

128

92

悉昙文字

 1 SMP

U+11600..U+1165F

莫迪文

Modi

96

79

莫迪文

 1 SMP

U+11660..U+1167F

蒙古文补充

Mongolian Supplement

32

13

蒙古文

 1 SMP

U+11680..U+116CF

塔克里文

Takri

80

68

塔克里文

 1 SMP

U+11700..U+1174F

阿洪姆文

Ahom

80

65

阿洪姆文

 1 SMP

U+11800..U+1184F

多格拉文

Dogra

80

60

多格拉文

 1 SMP

U+118A0..U+118FF

瓦兰齐地文

Warang Citi

96

84

瓦兰齐地文

 1 SMP

U+11900..U+1195F

岛屿字母

Dhives Akuru (Dives Akuru)

96

72

岛屿字母

 1 SMP

U+119A0..U+119FF

南迪城文

Nandinagari

96

65

南迪城文

 1 SMP

U+11A00..U+11A4F

札那巴札尔方形字母

Zanabazar Square

80

72

札那巴札尔方形字母

 1 SMP

U+11A50..U+11AAF

索永布文字

Soyombo

96

83

索永布文字

 1 SMP

U+11AB0..U+11ABF

加拿大原住民音节文字扩展-A

Unified Canadian Aboriginal Syllabics Extended-A

16

16

加拿大原住民音节文字

 1 SMP

U+11AC0..U+11AFF

包钦豪文

Pau Cin Hau

64

57

包钦豪文

 1 SMP

U+11B00..U+11B5F

天城文扩展-A

Devanagari Extended-A

96

10

天城文

 1 SMP

U+11C00..U+11C6F

拜克舒基文

Bhaiksuki

112

97

拜克舒基文

 1 SMP

U+11C70..U+11CBF

玛钦文

Marchen

80

68

玛钦文

 1 SMP

U+11D00..U+11D5F

马萨拉姆贡德文字

Masaram Gondi

96

75

马萨拉姆贡德文字

 1 SMP

U+11D60..U+11DAF

贡贾拉贡德文字

Gunjala Gondi

80

63

贡贾拉贡德文字

 1 SMP

U+11EE0..U+11EFF

望加锡文

Makasar

32

25

望加锡文

 1 SMP

U+11F00..U+11F5F

卡维文

Kawi

96

86

卡维文

 1 SMP

U+11FB0..U+11FBF

老傈僳文补充

Lisu Supplement

16

1

老傈僳文

 1 SMP

U+11FC0..U+11FFF

泰米尔文补充

Tamil Supplement

64

51

泰米尔文

 1 SMP

U+12000..U+123FF

楔形文字

Cuneiform

1,024

922

楔形文字

 1 SMP

U+12400..U+1247F

楔形文字数字和标点符号

Cuneiform Numbers and Punctuation

128

116

楔形文字

 1 SMP

U+12480..U+1254F

早期王朝楔形文字

Early Dynastic Cuneiform

208

196

楔形文字

 1 SMP

U+12F90..U+12FFF

塞浦路斯-米诺斯文字

Cypro-Minoan

112

99

塞浦路斯-米诺斯文字

 1 SMP

U+13000..U+1342F

埃及圣书体

Egyptian Hieroglyphs

1,072

1,072

埃及圣书体

 1 SMP

U+13430..U+1345F

埃及圣书体格式控制

Egyptian Hieroglyph Format Controls

48

38

埃及圣书体

 1 SMP

U+14400..U+1467F

安纳托利亚象形文字

Anatolian Hieroglyphs

640

583

安纳托利亚象形文字

 1 SMP

U+16800..U+16A3F

巴姆穆文字补充

Bamum Supplement

576

569

巴姆穆文字

 1 SMP

U+16A40..U+16A6F

默禄文

Mro

48

43

默禄文

 1 SMP

U+16A70..U+16ACF

唐萨文

Tangsa

96

89

唐萨文

 1 SMP

U+16AD0..U+16AFF

巴萨文

Bassa Vah

48

36

巴萨文

 1 SMP

U+16B00..U+16B8F

救世苗文

Pahawh Hmong

144

127

救世苗文

 1 SMP

U+16E40..U+16E9F

梅德法伊德林文

Medefaidrin

96

91

梅德法伊德林文

 1 SMP

U+16F00..U+16F9F

柏格理苗文

Miao

160

149

柏格理苗文

 1 SMP

U+16FE0..U+16FFF

表意符号和标点符号

Ideographic Symbols and Punctuation

32

7

汉字(2个)、契丹小字(1个)、女书(1个)、西夏文(1个)、通用(2个)

 1 SMP

U+17000..U+187FF

西夏文

Tangut

6,144

6,136

西夏文

 1 SMP

U+18800..U+18AFF

西夏文部件

Tangut Components

768

768

西夏文

 1 SMP

U+18B00..U+18CFF

契丹小字

Khitan Small Script

512

470

契丹小字

 1 SMP

U+18D00..U+18D7F

西夏文补充

Tangut Supplement

128

9

西夏文

 1 SMP

U+1AFF0..U+1AFFF

假名扩展-B

Kana Extended-B

16

13

片假名

 1 SMP

U+1B000..U+1B0FF

假名补充

Kana Supplement

256

256

平假名(255个)、片假名(1个)

 1 SMP

U+1B100..U+1B12F

假名扩展-A

Kana Extended-A

48

35

平假名(32个)、片假名(3个)

 1 SMP

U+1B130..U+1B16F

小型假名扩展

Small Kana Extension

64

9

平假名 (4个)、片假名 (5个)

 1 SMP

U+1B170..U+1B2FF

女书

Nushu

400

396

女书

 1 SMP

U+1BC00..U+1BC9F

杜普雷速记

Duployan

160

143

杜普雷速记

 1 SMP

U+1BCA0..U+1BCAF

速记格式控制符

Shorthand Format Controls

16

4

通用

 1 SMP

U+1CF00..U+1CFCF

赞玫尼圣歌音乐符号

Znamenny Musical Notation

208

185

赞玫尼圣歌音乐符号

 1 SMP

U+1D000..U+1D0FF

拜占庭音乐符号

Byzantine Musical Symbols

256

246

通用

 1 SMP

U+1D100..U+1D1FF

音乐符号

Musical Symbols

256

233

通用(211个)、继承(22个)

 1 SMP

U+1D200..U+1D24F

古希腊音乐记号

Ancient Greek Musical Notation

80

70

希腊语

 1 SMP

U+1D2C0..U+1D2DF

卡克托维克数字

Kaktovik Numerals

32

20

因努伊特数字

 1 SMP

U+1D2E0..U+1D2FF

玛雅数字

Mayan Numerals

32

20

通用

 1 SMP

U+1D300..U+1D35F

太玄经符号

Tai Xuan Jing Symbols

96

87

通用

 1 SMP

U+1D360..U+1D37F

算筹

Counting Rod Numerals

32

25

通用

 1 SMP

U+1D400..U+1D7FF

字母和数字符号

Mathematical Alphanumeric Symbols

1,024

996

通用

 1 SMP

U+1D800..U+1DAAF

萨顿书写符号

Sutton SignWriting

688

672

萨顿书写符号

 1 SMP

U+1DF00..U+1DFFF

拉丁字母扩展-G

Latin Extended-G

256

37

拉丁字母

 1 SMP

U+1E000..U+1E02F

格拉哥里字母补充

Glagolitic Supplement

48

38

格拉哥里字母

 1 SMP

U+1E030..U+1E08F

西里尔字母扩展-D

Cyrillic Extended-D

96

63

西里尔字母

 1 SMP

U+1E100..U+1E14F

创世纪苗文

Nyiakeng Puachue Hmong

80

71

创世纪苗文

 1 SMP

U+1E290..U+1E2BF

投投文

Toto

48

31

投投文

 1 SMP

U+1E2C0..U+1E2FF

文乔字母

Wancho

64

59

文乔字母

 1 SMP

U+1E4D0..U+1E4FF

蒙达里字母

Nag Mundari

48

42

蒙达里字母

 1 SMP

U+1E7E0..U+1E7FF

埃塞俄比亚字母扩展-B

Ethiopic Extended-B

32

28

吉兹字母

 1 SMP

U+1E800..U+1E8DF

门德基卡库文

Mende Kikakui

224

213

门德基卡库文

 1 SMP

U+1E900..U+1E95F

阿德拉姆字母

Adlam

96

88

阿德拉姆字母

 1 SMP

U+1EC70..U+1ECBF

印度西亚格数字

Indic Siyaq Numbers

80

68

通用

 1 SMP

U+1ED00..U+1ED4F

奥斯曼西亚格数字

Ottoman Siyaq Numbers

80

61

通用

 1 SMP

U+1EE00..U+1EEFF

阿拉伯字母数字符号

Arabic Mathematical Alphabetic Symbols

256

143

阿拉伯文

 1 SMP

U+1F000..U+1F02F

麻将牌

Mahjong Tiles

48

44

通用

 1 SMP

U+1F030..U+1F09F

多米诺骨牌

Domino Tiles

112

100

通用

 1 SMP

U+1F0A0..U+1F0FF

扑克牌

Playing Cards

96

82

通用

 1 SMP

U+1F100..U+1F1FF

带圈字母数字补充

Enclosed Alphanumeric Supplement

256

200

通用

 1 SMP

U+1F200..U+1F2FF

带圈表意文字补充

Enclosed Ideographic Supplement

256

64

平假名(1个)、通用(63个)

 1 SMP

U+1F300..U+1F5FF

杂项符号和象形文字

Miscellaneous Symbols and Pictographs

768

768

通用

 1 SMP

U+1F600..U+1F64F

表情符号

Emoticons

80

80

通用

 1 SMP

U+1F650..U+1F67F

装饰符号

Ornamental Dingbats

48

48

通用

 1 SMP

U+1F680..U+1F6FF

交通和地图符号

Transport and Map Symbols

128

118

通用

 1 SMP

U+1F700..U+1F77F

炼金术符号

Alchemical Symbols

128

124

通用

 1 SMP

U+1F780..U+1F7FF

几何图形扩展

Geometric Shapes Extended

128

103

通用

 1 SMP

U+1F800..U+1F8FF

追加箭头-C

Supplemental Arrows-C

256

150

通用

 1 SMP

U+1F900..U+1F9FF

补充符号和象形文字

Supplemental Symbols and Pictographs

256

256

通用

 1 SMP

U+1FA00..U+1FA6F

棋类符号

Chess Symbols

112

98

通用

 1 SMP

U+1FA70..U+1FAFF

符号和象形文字扩展-A

Symbols and Pictographs Extended-A

144

107

通用

 1 SMP

U+1FB00..U+1FBFF

遗留计算符号

Symbols for Legacy Computing

256

212

通用

 2 SIP

U+20000..U+2A6DF

中日韩统一表意文字扩展区B

CJK Unified Ideographs Extension B

42,720

42,720

汉字

 2 SIP

U+2A700..U+2B73F

中日韩统一表意文字扩展区C

CJK Unified Ideographs Extension C

4,160

4,154

汉字

 2 SIP

U+2B740..U+2B81F

中日韩统一表意文字扩展区D

CJK Unified Ideographs Extension D

224

222

汉字

 2 SIP

U+2B820..U+2CEAF

中日韩统一表意文字扩展区E

CJK Unified Ideographs Extension E

5,776

5,762

汉字

 2 SIP

U+2CEB0..U+2EBEF

中日韩统一表意文字扩展区F

CJK Unified Ideographs Extension F

7,488

7,473

汉字

 2 SIP

U+2F800..U+2FA1F

中日韩相容表意文字补充区

CJK Compatibility Ideographs Supplement

544

542

汉字

 3 TIP

U+30000..U+3134F

中日韩统一表意文字扩展区G

CJK Unified Ideographs Extension G

4944

4939

汉字

 3 TIP

U+31350..U+323AF

中日韩统一表意文字扩展区H

CJK Unified Ideographs Extension H

4192

4192

汉字

14 SSP

U+E0000..U+E007F

标签

Tags

128

97

通用

14 SSP

U+E0100..U+E01EF

变体选择符补充

Variation Selectors Supplement

240

240

继承

15 PUA-A

U+F0000..U+FFFFF

补充私人使用区-A

Supplementary Private Use Area-A

65,536

65,534

未知

16 PUA-B

U+100000..U+10FFFF

补充私人使用区-B

Supplementary Private Use Area-B

65,536

65,534

未知

a. 代码点包括未分配的代码点(非字符或保留代码点)。
b. 根据文字属性的定义,文字在区段中有一个或多个字符,与区段名称无关
c. “通用”、“未知”(Zyyy) 与“继承”(Zinh 或 Qaai) 参考自ISO 15924的4位代码
d. Unicode区段资料文件,根据 Unicode 13.0
e. UAX 24:Unicode文字属性(4位代码)
f. UAX 24:文字资料档案
g. 在ISO/IEC 10646称为“C0 Controls and Basic Latin”。
h. 在ISO/IEC 10646称为“C1 Controls and Latin-1 Supplement”。

:: --------------------------------------------------------------------------------------------------------------------

Unicode CJK(中文字符) 的范围分布在多个区段中,带有 CJK 的区块名中都拥有汉字。
最常用的范围是 U+4E00~U+9FA5,即名为:CJK Unified Ideographs 的区块,
但 U+9FA6~U+9FFF 之间的字符还属于空码,暂时还未定义,但不能保证以后不会被定义。

注意:
在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据平台所提供的字符集范围不同而改变,
不过对于要求不是很高的话的是可以了。如果对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:

    Java code:
        String regex = " [\\p{InCJK Unified Ideographs}&&\\P{Cn}]] " ;

在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。
但这样可以匹配 Java 平台所支持 Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符,这种方式就属于“活”代码。
今后的 JDK 版本升级了,定义到了 \u9fa6 的字符,同样能够满足匹配。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值