字符范围

re=/^[\u4E00-\u9FA5\w-\/\\-#&\(\)]+$/g;
日文不知道给你个参考
这里是几个主要非英文语系字符范围(google上找到的):

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。

3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。

4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。

A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。

AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。

F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。

FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$  
理论上没错,   可是我到msn.co.ko随便复制了个韩文下来,   发现根本不对,   诡异  
再到msn.co.jp复制了个 'お ',   也不得行..  

然后把范围扩大到^[\u2E80-\u9FFF]+$,   这样倒是都通过了,   这个应该就是匹配中日韩文字的正则表达式了,   包括我們臺灣省還在盲目使用的繁體中文

而关于中文的正则表达式,   应该是^[\u4E00-\u9FFF]+$,   和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式,   实际上繁体字也在里面,   我用测试器测试了下 '中華人民共和國 ',   也通过了,   当然,   ^[\u4E00-\u9FFF]+$也是一样的结果


  如果一个页面要同时显示简体字,繁体字,那么gbk编码就足够了。但如果还要显示日文,韩文等,那就非utf-8不可了。在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。
    但其实,用utf-8的话还是会有一个问题的。有一些汉字,在日文里也有使用,但写法和我们通常的写法有略有不同,也还可以辩认。如下图,第一行是汉字通常的写法,第二行是日文里的,写法上也略有变化。日文里应该就是直接用了中文,但因为历史上汉字就有很多异形字,两国各自标准化时采用的写法不一样。这样应该编成两个字符还是一个字符,确实也不好判断。目前,在unicode里,它们是编成一个字符。现在看起来不同是因为它们的字体不一样(第一行是宋体,第二行是MS Mincho),就是说,在一篇中文和日文混排的文章里,要想让分清楚这两种,用一种字体是不可能的。也就是说,要分开中文和日文,仅看unicode编码是不够的,还要检查字体。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值