对各字符集编码范围的总结

转载 2016年06月02日 01:56:14

转载自http://blog.csdn.net/lb521200200/article/details/2497152

最近项目中用到了对文字、标点以及特殊字符的判断。
网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断
这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

UTF8
[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}

UTF16
[/x00-/xd7][/xe0-/xff]|[/xd8-/xdf][/x00-/xff]{2}

JIS
[/x20-/x7e]|[/x21-/x5f]|[/x21-/x7e]{2}

SJIS
[/x20-/x7e]|[/xa1-/xdf]|([/x81-/x9f]|[/xe0-/xef])([/x40-/x7e]|[/x80-/xfc])

EUC_JP        
[/x20-/x7e]|/x81[/xa1-/xdf]|[/xa1-/xfe][/xa1-/xfe]|/x8f[/xa1-/xfe]{2}

EUC_JP标点符号及特殊字符        
[/xa1-/xa2][/xa0-/xfe]

EUC_JP全角数字
/xa3[/xb0-/xb9]

EUC_JP全角大写英文
/xa3[/xc1-/xda]

EUC_JP全角小写英文     
/xa3[/xe1-/xfa]

EUC_JP全角平假名
/xa4[/xa1-/xf3]

EUC_JP全角片假名 [color=Red]2007-03-12 15:00更新[/color]
/xa3[/xb0-/xb9]|/xa3[/xc1-/xda]|/xa5[/xa1-/xf6][/xa3][/xb0-/xfa]|[/xa1][/xbc-/xbe]|[/xa1][/xdd]

EUC_JP全角汉字 [color=Red]2007-03-12 15:06更新[/color]
[/xb0-/xcf][/xa0-/xd3]|[/xd0-/xf4][/xa0-/xfe]|[/xB0-/xF3][/xA1-/xFE]|[/xF4][/xA1-/xA6]|[/xA4][/xA1-/xF3]|[/xA5][/xA1-/xF6]|[/xA1][/xBC-/xBE]

Big5
[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|[/xa1-/xfe])

GBK
[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]

GB2312汉字
[/xb0-/xf7][/xa0-/xfe]

GB2312半角标点符号及特殊符号
/xa1[/xa2-/xfe]

GB2312罗马数组及项目序号
/xa2([/xa1-/xaa]|[/xb1-/xbf]|[/xc0-/xdf]|[/xe0-/xe2]|[/xe5-/xee]|[/xf1-/xfc])

GB2312全角标点及全角字母
/xa3[/xa1-/xfe]

GB2312日文平假名
/xa4[/xa1-/xf3]

GB2312日文片假名
/xa5[/xa1-/xf6]


補充: 
GB18030
[/x00-/x7f]|[/x81-/xfe][/x40-/xfe]|[/x81-/xfe][/x30-/x39][/x81-/xfe][/x30-/x39]


[color=Red]2007-03-12 21:35 补充[/color] 
日文半角空格
/x20

SJIS全角空格
(?:/x81/x81)

SJIS全角数字
(?:/x82[/x4f-/x58])

SJIS全角大写英文
(?:/x82[/x60-/x79])

SJIS全角小写英文
(?:/x82[/x81-/x9a])

SJIS全角平假名
(?:/x82[/x9f-/xf1])

SJIS全角平假名扩展
(?:/x82[/x9f-/xf1]|/x81[/x4a/x4b/x54/x55])

SJIS全角片假名
(?:/x83[/x40-/x96])

SJIS全角片假名扩展
(?:/x83[/x40-/x96]|/x81[/x45/x5b/x52/x53])

EUC_JP全角空格
(?:/xa1/xa1)

EUC半角片假名
(?:/x8e[/xa6-/xdf])
补充:
日文半角空格 
SJIS全角空格 
SJIS全角数字 
SJIS全角大写英文 
SJIS全角小写英文 
SJIS全角平假名 
SJIS全角平假名扩展 
SJIS全角片假名 
SJIS全角片假名扩展 
EUC_JP全角空格 
EUC半角片假名

NOIP考纲总结+NOIP考前经验谈

首先来一张图,很直观(截止到2012年数据)     下面是收集的一些,我改了一下 红色加粗表示特别重要,必须掌握 绿色加粗表示最好掌握,可能性不是很大,但是某些可以提高程序效率 高...
  • txl16211
  • txl16211
  • 2015年10月12日 16:51
  • 5711

寻址范围总结

基本不出两种情况。以下是例子,真正弄懂就差不多不用害怕了。假设CPU有20根地址线,32根数据线,试问按字节和字寻址,寻址范围分别是多少? 解答:首先,默认情况下,地址线的位数对应的都是按字节寻址...
  • u011240016
  • u011240016
  • 2016年08月28日 18:00
  • 477

LeetCode总结,二分法一般性总结

其实,二分法真的不那么简单,尤其是二分法的各个变种。 最最简单的二分法,就是从一个排好序的数组之查找一个key值。 如下面的程序: 点击(此处)折叠或打开 int search(int ...
  • EbowTang
  • EbowTang
  • 2016年03月01日 21:47
  • 5227

前端知识点大全

前端开发面试知识点大纲: HTML&CSS: 对Web标准的理解、浏览器内核差异、兼容性、hack、CSS基本功:布局、盒子模型、选择器优先级及使用、HTML5、CSS3、移动端适应。 Java...
  • sjpz0124
  • sjpz0124
  • 2015年07月23日 16:01
  • 4570

Python应用范围总结概览

Python就是万金油! Python(派森),它是一个简单的、解释型的、交互式的、可移植的、面向对象的超高级语言。这就是对Python语言的最简单的描述。 Python有一个交互式的开发环境,因...
  • yx511500623
  • yx511500623
  • 2013年03月31日 13:36
  • 630

随机数范围扩展方法总结

http://blog.csdn.net/hackbuteer1/article/details/7486704 题目: 已知有个rand7()的函数,返回1到7随机自然数,让利用这个rand...
  • gao1440156051
  • gao1440156051
  • 2016年09月28日 18:39
  • 154

补码,反码,原码的范围总结

刚刚碰到一个题目,需要写出一种浮点数范围的题。 原题如下 假定一种浮点数格式是11位数符,77位阶码,88位尾数。其中尾数用补码表示,阶码用移码表示。 问,此格式可以表示的数据范围。无疑,我们不...
  • u011240016
  • u011240016
  • 2016年09月21日 14:50
  • 1000

随机数范围扩展方法总结

转载来源http://blog.csdn.net/hackbuteer1/article/details/7486704
  • chhuach2005
  • chhuach2005
  • 2014年09月08日 20:41
  • 513

mysql float精度与范围总结

FLOAT类型用于表示近似数值数据类型。SQL标准 允许在关键字FLOAT后面的括号内选择用位指定精度(但不能为指数范围)。MySQL还支持可选的只用于确定存储大小的精度规定。0到23的精度对应 FL...
  • zhanghongzheng3213
  • zhanghongzheng3213
  • 2016年05月27日 17:22
  • 8410

随机数范围扩展方法总结 .

题目: 已知有个rand7()的函数,返回1到7随机自然数,让利用这个rand7()构造rand10() 随机1~10。 分析:要保证rand10()在整数1-10的均匀分布,可以构造一个1-10...
  • yxj_1989
  • yxj_1989
  • 2013年07月28日 16:28
  • 630
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:对各字符集编码范围的总结
举报原因:
原因补充:

(最多只允许输入30个字)