使用Unicode字符类
在W3C XML Schema 文档中使用Unicode 字符类是,字符类通过如下方式来指定:
\p{字符类}
W3C XML Schema 支持的Unicode字符类
Unicode | 说明 |
C | 其他字符 |
Cc | 控制字符 |
Cf | 格式字符 |
Cn | 未指定的编码点 |
L | 字母 |
L1 | 小写字母 |
Lm | 修饰字母 |
Ln | 其他字母 |
Lt | 标题格(Title-case)字母 |
Lu | 大写字母 |
M | 所有标记(mark) |
Mc | 组合空格标记 |
Mc | 封装标记 |
Mn | 非空格标记 |
N | 数值 |
Nd | 十进制数 |
N1 | 数字字母 |
No | 其他数字 |
P | 标点符号 |
Pc | 连接器标点符号 |
Pd | 破折号 |
Pe | 结束标点符号 |
Pf | 后引号号 |
Pi | 前引号 |
Po | 其他形式的标点符号 |
Ps | 开始的标点符号 |
S | 符号(symbols) |
Sc | 货币符号 |
Sk | 修饰符号 |
Sm | 数学符号 |
So | 其他符号 |
Z | 分隔符 |
Z1 | 换行符 |
Zp | 分段符 |
Zs | 空格符 |
UnicodeCategory 枚举
| 成员名称 | 说明 |
Lu | UppercaseLetter | 指示字符是大写字母。值为 0。 |
Ll | LowercaseLetter | 指示字符是小写字母。值为 1。 |
Lt | TitlecaseLetter | 指示字符是词首字母大写字母。值为 2。 |
Lm | ModifierLetter | 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。值为 3。 |
Lo | OtherLetter | 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。值为 4. |
Mn | NonSpacingMark | 指示字符是非间距字符,这指示基字符的修改。值为 5。 |
Mc | SpacingCombiningMark | 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。值为 6。 |
Me | EnclosingMark | 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。值为 7。 |
Nd | DecimalDigitNumber | 指示字符是十进制数字,即在范围 0 到 9 内。值为 8。 |
Nl | LetterNumber | 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。值为 9。 |
No | OtherNumber | 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。值为 10。 |
Zs | SpaceSeparator | 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。值为 11。 |
Zl | LineSeparator | 指示字符用于分隔文本各行。值为 12 |
Zp | ParagraphSeparator | 指示字符用于分隔段落。值为 13。 |
Cc | Control | 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。值为 14 |
Cf | Format | 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。值为 1。 |
Cs | Surrogate | 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。值为 16。 |
Co | PrivateUse | 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。值为17。 |
Pc | ConnectorPunctuation | 指示字符是连接两个字符的连接符标点。值为 18。 |
Pd | DashPunctuation | 指示字符是短划线或连字符。值为 19。 |
Ps | OpenPunctuation | 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。值为 20。 |