复盘最基础的知识:
问:网上搜索,中文的正则,一般用 [ \u4e00-\u9fa5] 即可搞定, [ \u4e00-\u9fa5] 是什么?
答: [ \u4e00-\u9fa5] 是一个范围,是Unicode编码表里的一段编码与中文的映射
问:那么Unicode是什么?
答:对各国文字、标点符号、特殊字符进行编码,避免不同文字编码冲突,计算机不知道这个编码到底是映射哪个图标、符号;
问:Unicode的编码范围有多少?中文 [ \u4e00-\u9fa5] 在什么位置?
答:自己看百度百科,我贴过来了,看下面也一样,我认为使用[\u0000-\uFFFF]就够了,啥火星文、鸟语、图标都在里面。
编码范围:说明
0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)
0100-017F:拉丁文扩展-A (Latin Extended-A)
0180-024F:拉丁文扩展-B (Latin Extended-B)
0250-02AF:国际音标扩展 (IPA Extensions)
02B0-02FF:空白修饰字母 (Spacing Modifiers)
0300-036F:结合用读音符号 (Combining Diacritics Marks)
0370-03FF:希腊文及科普特文 (Greek and Coptic)
0400-04FF:西里尔字母 (Cyrillic)
0500-052F:西里尔字母补充 (Cyrillic Supplement)
0530-058F:亚美尼亚语 (Armenian)
0590-05FF:希伯来文 (Hebrew)
0600-06FF:阿拉伯文 (Arabic)
0700-074F:叙利亚文 (Syriac)
0750-077F:阿拉伯文补充 (Arabic Supplement)
0780-07BF:马尔代夫语 (Thaana)
07C0-077F:西非书面语言 (N'Ko)
0800-085F:阿维斯塔语及巴列维语 (Avestan and Pahlavi)
0860-087F:Mandaic
0880-08AF:撒马利亚语 (Samaritan)
0900-097F:天城文书 (Devanagari)
0980-09FF:孟加拉语 (Bengali)
0A00-0A7F:锡克教文 (Gurmukhi)
0A80-0AFF:古吉拉特文 (Gujarati)
0B00-0B7F:奥里亚文 (Oriya)
0B80-0BFF:泰米尔文 (Tamil)
0C00-0C7F:泰卢固文 (Telugu)
0C8