Unicode字符类

Unicode 通用类别:

http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx

类别 说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,词首字母大写

Lm

字母,修饰符

Lo

字母,其他

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据用途可能表现为类似 Ps 或 Pe)

Pf

标点,后引号(根据用途可能表现为类似 Ps 或 Pe)

Po

标点,其他

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(不存在任何字符具有此属性)

.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。

类别 表示

C

(所有控制字符)CcCfCsCoCn

L

(所有字母)LuLlLtLmLo

M

(所有附加符号标记)MnMcMe

N

(所有数字)NdNlNo

P

(所有标点)PcPdPsPePiPfPo

S

(所有符号)SmScSkSo

Z

(所有分隔符)ZsZlZp

UnicodeCategory 枚举

http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员

 成员名称说明
LuUppercaseLetter指示字符是大写字母。
LlLowercaseLetter指示字符是小写字母。
LtTitlecaseLetter指示字符是词首字母大写字母。
LmModifierLetter指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。
LoOtherLetter指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。
MnNonSpacingMark指示字符是非间距字符,这指示基字符的修改。
McSpacingCombiningMark指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。
MeEnclosingMark指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。
NdDecimalDigitNumber指示字符是十进制数字,即在范围 0 到 9 内。
NlLetterNumber指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。
NoOtherNumber指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。
ZsSpaceSeparator指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。
ZlLineSeparator指示字符用于分隔文本各行。
ZpParagraphSeparator指示字符用于分隔段落。
CcControl指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。
CfFormat指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
CsSurrogate指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。
CoPrivateUse指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。
PcConnectorPunctuation指示字符是连接两个字符的连接符标点。
PdDashPunctuation指示字符是短划线或连字符。
PsOpenPunctuation指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。
PeClosePunctuation指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。
PiInitialQuotePunctuation指示字符是开始或前引号。
PfFinalQuotePunctuation指示字符是封闭或后引号。
PoOtherPunctuation指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。
SmMathSymbol指示字符是数学符号,例如“+”或“=”。
ScCurrencySymbol指示字符是货币符号。
SkModifierSymbol指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。
SoOtherSymbol指示字符是符号,但它不是数学符号、货币符号或修饰符符号。
CnOtherNotAssigned指示字符未被分配给任何 Unicode 类别。
 备注

此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。

此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。

Unicode 标准定义以下方面:

代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。

组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。

修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。

括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。

格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。

Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。

Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。

 

統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)

 

http://www.geocities.com/chukl000/unicode/unicode5-0-0.html
區塊位置
Block Positons
區塊名稱
Block Names
English Names中文譯名
0000-007FBasic Latin基本拉丁字母
0080-00FFLatin-1 Supplement拉丁字母補充-1
0100-017FLatin Extended-A拉丁字母擴充-A
0180-024FLatin Extended-B拉丁字母擴充-B
0250-02AFIPA Extensions國際音標擴充
02B0-02FFSpacing Modifier Letters進格修飾字元
0300-036FCombining Diacritical Marks組合音標附加符號
0370-03FFGreek and Coptic希臘字母
0400-04FFCyrillic西里爾字母
0500-052FCyrillic Supplement西里爾字母補充
0530-058FArmenian亞美尼亞文
0590-05FFHebrew希伯來文
0600-06FFArabic基本阿拉伯文
0700-074FSyriac敘利亞文
0750-077FArabic Supplement阿拉伯文補充
0780-07BFThaana塔納文
07C0-07FFN’Ko 
0900-097FDevanagari天城體梵文字母
0980-09FFBengali孟加拉文
0A00-0A7FGurmukhi古爾穆基文
0A80-0AFFGujarati古吉拉特文
0B00-0B7FOriya奧里亞文
0B80-0BFFTamil泰米爾文
0C00-0C7FTelugu泰盧固文
0C80-0CFFKannada卡納達文
0D00-0D7FMalayalam馬拉亞拉姆文
0D80-0DFFSinhala僧伽羅文
0E00-0E7FThai泰文
0E80-0EFFLao老撾文;寮文
0F00-0FFFTibetan藏文
1000-109FMyanmar緬甸文
10A0-10FFGeorgian格魯吉亞文
1100-11FFHangul Jamo諺文字母
1200-137FEthiopic埃塞俄比亞文
1380-139FEthiopic Supplement埃塞俄比亞文補充
13A0-13FFCherokee切羅基文
1400-167FUnified Canadian Aboriginal Syllabics加拿大土著統一音節文字
1680-169FOgham歐甘文
16A0-16FFRunic北歐古文
1700-171FTagalog他加祿文
1720-173FHanunoo哈努諾文
1740-175FBuhid布希德文
1760-177FTagbanwa塔格巴努亞文
1780-17FFKhmer高棉文
1800-18AFMongolian蒙古文
1900-194FLimbu林布文
1950-197FTai Le傣哪文;德宏傣文
1980-19DFNew Tai Lue新傣仂文
19E0-19FFKhmer Symbols高棉符號
1A00-1A1FBuginese布吉文
1B00-1B7FBalinese巴厘文
1D00-1D7FPhonetic Extensions音標擴充
1D80-1DBFPhonetic Extensions Supplement音標擴充補充
1DC0-1DFFCombining Diacritical Marks Supplement組合音標附加符號
1E00-1EFFLatin Extended Additional拉丁字母擴充附加
1F00-1FFFGreek Extended希臘文擴充
2000-206FGeneral Punctuation一般標點符號
2070-209FSuperscripts and Subscripts下標及上標
20A0-20CFCurrency Symbols貨幣符號
20D0-20FFCombining Diacritical Marks for Symbols符號用組合附加符號
2100-214FLetterlike Symbols似字母符號
2150-218FNumber Forms數字形式
2190-21FFArrows箭頭符號
2200-22FFMathematical Operators數學運算符號
2300-23FFMiscellaneous Technical混合專門符號;零雜技術符號
2400-243FControl Pictures控制圖像
2440-245FOptical Character Recognition光學字元識別
2460-24FFEnclosed Alphanumerics圈型字母數字
2500-257FBox Drawing製表符
2580-259FBlock Elements區塊元件
25A0-25FFGeometric Shapes幾何形狀
2600-26FFMiscellaneous Symbols混合什錦符號;零雜符號
2700-27BFDingbats什錦符號
27C0-27EFMiscellaneous Mathematical Symbols-A混合數學符號-A;零雜數學符號-A
27F0-27FFSupplemental Arrows-A補充性箭頭符號-A
2800-28FFBraille Patterns盲文;盲人點字
2900-297FSupplemental Arrows-B補充性箭頭符號-B
2980-29FFMiscellaneous Mathematical Symbols-B混合數學符號-B;零雜數學符號-B
2A00-2AFFSupplemental Mathematical Operators補充性數學運算符號
2B00-2BFFMiscellaneous Symbols and Arrows混合什錦符號和箭頭符號;零雜符號與箭頭
2C00-2C5FGlagolitic格拉哥爾字母
2C60-2C7FLatin Extended-C拉丁字母擴充-C
2C80-2CFFCoptic科普特文
2D00-2D2FGeorgian Supplement格魯吉亞文補充
2D30-2D7FTifinagh提非納格字母
2D80-2DDFEthiopic Extended埃塞俄比亞文擴充
2E00-2E7FSupplemental Punctuation補充性標點符號
2E80-2EFFCJK Radicals Supplement中日韓部首補充
2F00-2FDFKangxi Radicals康熙部首
2FF0-2FFFIdeographic Description Characters漢字結構描述字符
3000-303FCJK Symbols and Punctuation中日韓符號和標點
3040-309FHiragana平假名
30A0-30FFKatakana片假名
3100-312FBopomofo注音符號
3130-318FHangul Compatibility Jamo諺文相容字母
3190-319FKanbun漢文標註號
31A0-31BFBopomofo Extended注音符號擴充
31C0-31EFCJK Strokes中日韓筆畫部件
31F0-31FFKatakana Phonetic Extensions片假名音標擴充
3200-32FFEnclosed CJK Letters and Months括號中日韓字母及月份;圈型中日韓字母及月份
3300-33FFCJK Compatibility中日韓相容字元
3400-4DBFCJK Unified Ideographs Extension A中日韓統一表意文字擴充A
4DC0-4DFFYijing Hexagram Symbols易經六十四卦象
4E00-9FFFCJK Unified Ideographs中日韓統一表意文字
A000-A48FYi Syllables彝文音節
A490-A4CFYi Radicals彝文字母
A700-A71FModifier Tone Letters聲調符號
A720-A7FFLatin Extended-D拉丁字母擴充-D
A800-A82FSyloti Nagri 
A840-A87FPhags-pa八思巴字母
AC00-D7AFHangul Syllables諺文音節
D800-DB7FHigh Surrogates高半代用區
DB80-DBFFHigh Private Use Surrogates高半專用代用區
DC00-DFFFLow Surrogates低半代用區
E000-F8FFPrivate Use Area專用區
F900-FAFFCJK Compatibility Ideographs中日韓相容表意文字
FB00-FB4FAlphabetic Presentation Forms字母變體顯現形式
FB50-FDFFArabic Presentation Forms-A阿拉伯文變體顯現形式-A
FE00-FE0FVariation Selectors字型變換選取器
FE10-FE1FVertical Forms豎式標點
FE20-FE2FCombining Half Marks組合半形標示
FE30-FE4FCJK Compatibility Forms中日韓相容形式
FE50-FE6FSmall Form Variants小寫變體
FE70-FEFFArabic Presentation Forms-B阿拉伯文變體顯現形式-B
FF00-FFEFHalfwidth and Fullwidth Forms半形及全形字符
FFF0-FFFFSpecials特殊區域
10000-1007FLinear B Syllabary線形文字B音節文字
10080-100FFLinear B Ideograms線形文字B表意文字
10100-1013FAegean Numbers愛琴數字
10140-1018FAncient Greek Numbers古希臘數字
10300-1032FOld Italic古意大利文
10330-1034FGothic哥特文
10380-1039FUgaritic烏加里特楔形文字
103A0-103DFOld Persian古波斯文
10400-1044FDeseret猶他大學音標
10450-1047FShavian肅伯納字母
10480-104AFOsmanya 
10800-1083FCypriot Syllabary塞浦路斯音節文字
10900-1091FPhoenician腓尼基字母
10A00-10A5FKharoshthi佉盧字母
12000-123FFCuneiform楔形文字
12400-1247FCuneiform Numbers and Punctuation楔形文字數字及標點
1D000-1D0FFByzantine Musical Symbols東正教音樂符號
1D100-1D1FFMusical Symbols音樂符號
1D200-1D24FAncient Greek Musical Notation古希臘音樂譜記號
1D300-1D35FTai Xuan Jing Symbols太玄經符號
1D360-1D37FCounting Rod Numerals算籌記數式
1D400-1D7FFMathematical Alphanumeric Symbols數學用字母數字符號
20000-2A6DFCJK Unified Ideographs Extension B中日韓統一表意文字擴充B
2F800-2FA1FCJK Compatibility Ideographs Supplement中日韓相容表意文字補充
E0000-E007FTags語言編碼標籤
E0100-E01EFVariation Selectors Supplement字型變換選取器補充
FFF80-FFFFFSupplementary Private Use Area-A補充專用區-A
10FF80-10FFFFSupplementary Private Use Area-B補充專用區-B

 

标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html

 

http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/

















































Code point rangeBlock nameRelease
U+3400..U+4DB5CJK Unified Ideographs Extension A3.0
U+4E00..U+9FA5CJK Unified Ideographs1.1
U+9FA6..U+9FBBCJK Unified Ideographs4.1
U+F900..U+FA2DCJK Compatibility Ideographs1.1
U+FA30..U+FA6ACJK Compatibility Ideographs3.2
U+FA70..U+FAD9CJK Compatibility Ideographs4.1
U+20000..U+2A6D6CJK Unified Ideographs Extension B3.1
U+2F800..U+2FA1DCJK Compatibility Supplement3.1
 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值