网上一般说法是[\u4e00-\u9fa5]
,这是不完整的,过期15年了(Unicode 4.1, 2005)。
基本平面
- CJK Unified Ideographs(中日韩统一表意文字)区,
4E00-9FFC
(Unicode 13.0, 2020):
写法风格 | 正则表达式 |
---|
JS | [\u4E00-\u9FFC] |
PCRE | [\x{4E00}-\x{9FFC}] |
…… | …… |
- CJK Unified Ideographs Extension A,
3400-4DBF
。 - 可以试试\p,支不支持要看引擎,写法不是很通用,一般也不支持扩展区的汉字:
引擎 | 正则表达式 |
---|
Perl | \p{CJK_Unified_Ideographs} |
.NET | \p{IsCJKUnifiedIdeographs} |
…… | …… |
扩展平面
- CJK Unified Ideographs Extension B/C/D/E/F,
20000-2EBE0
:
写法风格 | 正则表达式 |
---|
JS | [\u{20000}-\u{2EBE0}] |
PCRE | [\x{20000}-\x{2EBE0}] |
Python3 | [\U00020000-\U0002EBE0] |
…… | …… |
- CJK Unified Ideographs Extension G,
30000-3134A
.