perl正则表达式中各种字符集的整理

转载 2007年09月24日 15:23:00
UTF8

[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0-/xff][/x80-/xbf]{3}

UTF16

[/x00-/xd7][/xe0-/xff]|[/xd8-/xdf][/x00-/xff]{2}

JIS

[/x20-/x7e]|[/x21-/x5f]|[/x21-/x7e]{2}

SJIS

[/x20-/x7e]|[/xa1-/xdf]|([/x81-/x9f]|[/xe0-/xef])([/x40-/x7e]|[/x80-/xfc])

EUC_JP

[/x20-/x7e]|/x81[/xa1-/xdf]|[/xa1-/xfe][/xa1-/xfe]|/x8f[/xa1-/xfe]{2}

EUC_JP标点符号及特殊字符

[/xa1-/xa2][/xa0-/xfe]

EUC_JP全角数字

/xa3[/xb0-/xb9]

EUC_JP全角大写英文

/xa3[/xc1-/xda]

EUC_JP全角小写英文

/xa3[/xe1-/xfa]

EUC_JP全角平假名

/xa4[/xa1-/xf3]

EUC_JP全角片假名 2007-03-12 15:00更新

/xa3[/xb0-/xb9]|/xa3[/xc1-/xda]|/xa5[/xa1-/xf6][/xa3][/xb0-/xfa]|[/xa1][/xbc-/xbe]|[/xa1][/xdd]

EUC_JP全角汉字        2007-03-12 15:06更新

[/xb0-/xcf][/xa0-/xd3]|[/xd0-/xf4][/xa0-/xfe]|[/xB0-/xF3][/xA1-/xFE]|[/xF4][/xA1-/xA6]|[/xA4][/xA1-/xF3]|[/xA5][/xA1-/xF6]|[/xA1][/xBC-/xBE]

Big5

[/x01-/x7f]|[/x81-/xfe]([/x40-/x7e]|[/xa1-/xfe])

GBK

[/x01-/x7f]|[/x81-/xfe][/x40-/xfe]

GB2312汉字

[/xb0-/xf7][/xa0-/xfe]

GB2312半角标点符号及特殊符号

/xa1[/xa2-/xfe]

GB2312罗马数组及项目序号

/xa2([/xa1-/xaa]|[/xb1-/xbf]|[/xc0-/xdf]|[/xe0-/xe2]|[/xe5-/xee]|[/xf1-/xfc])

GB2312全角标点及全角字母

/xa3[/xa1-/xfe]

GB2312日文平假名

/xa4[/xa1-/xf3]

GB2312日文片假名

/xa5[/xa1-/xf6]

補充:
GB18030

[/x00-/x7f]|[/x81-/xfe][/x40-/xfe]|[/x81-/xfe][/x30-/x39][/x81-/xfe][/x30-/x39]

2007-03-12 21:35 补充
日文半角空格


SJIS全角空格

(?:/x81/x81)

SJIS全角数字

(?:/x82[/x4f-/x58])

SJIS全角大写英文

(?:/x82[/x60-/x79])

SJIS全角小写英文

(?:/x82[/x81-/x9a])

SJIS全角平假名

(?:/x82[/x9f-/xf1])

SJIS全角平假名扩展

(?:/x82[/x9f-/xf1]|/x81[/x4a/x4b/x54/x55])

SJIS全角片假名

(?:/x83[/x40-/x96])

SJIS全角片假名扩展

(?:/x83[/x40-/x96]|/x81[/x45/x5b/x52/x53])

EUC_JP全角空格

(?:/xa1/xa1)

EUC半角片假名

(?:/x8e[/xa6-/xdf]) 

perl的中文字符集转换的例子

#!/usr/bin/perluse Encode;$^I = "";#open TEST_A, ">file1.txt";while (){ print $_;  $AAA = encode("IS...
  • zhangxinrun
  • zhangxinrun
  • 2011年05月10日 18:25
  • 2205

PERL 转义字符,字符集缩写,修饰符用法总结

字符集缩写含义:\d:任意数字的字符集[0-9]\w:表示单词字符[A-Za-z0-9_]\s:处理空白[\f\t\n\r]\h:匹配横向空白[\t ]\v:匹配纵向空格以上简写的大写,表示反义\R:...
  • swgshj
  • swgshj
  • 2014年04月23日 22:36
  • 825

perl正则表达式中文问题

 在使用perl从地址中提取街道的时候遇到了个很诡异的问题同样一个地址,连续进行两次匹配出来的结果居然不一样一次是正常的,一次是乱码,搞了半天没弄明白是怎么回事看来perl的中文处理能力还是有待加强后...
  • cnki_ok
  • cnki_ok
  • 2011年04月15日 15:34
  • 726

perl, 匹配汉字, 中文处理步骤

1. #!/usr/bin/env perl use Encode qw(encode decode); while () { ($name) = /.*\\(.*)/; $nam...
  • suanleba10
  • suanleba10
  • 2013年08月11日 01:01
  • 2399

用perl将全角标点数字改为半角

在GB2312下的全角标点和ascii码下的半角标是有联系的。不要什么对照表,全角字符是两 个字节,跟半角字符有一一对应的线性关系,  很简单.  第一字节: 160+区号 { 全角的第一字...
  • cnki_ok
  • cnki_ok
  • 2014年02月12日 10:30
  • 656

Perl正则表达式讲解,真的非常详细

  ...
  • eroswang
  • eroswang
  • 2007年10月06日 00:04
  • 10831

Perl语言入门笔记 第八章 用正则表达式进行匹配

#用正则表达式进行匹配 =pod m// = // = m%%,m||,m,m{},m(),匹配的时候根据需要写自己的定界符,像qw省略双引号定界符一样 模式匹配修饰符: 跟在定界符后面的,//...
  • q1241580040
  • q1241580040
  • 2015年09月21日 01:44
  • 2218

Perl正则表达式小结~张润萌

perl正则表达式 一、简介 二、匹配操作符 三、模式中的特殊字符 1、字符 2、字符 []和[^] 3、字符 +,*和? 4、转义字符 5、匹配任意字母或数字 6、锚模式 7、模式中的变量替换 8、...
  • zrm2012
  • zrm2012
  • 2016年07月13日 17:53
  • 1426

perl正则表达式中各种字符集的整理

UTF8[Copy to clipboard] [ - ]CODE:[/x01-/x7f]|[/xc0-/xdf][/x80-/xbf]|[/xe0-/xef][/x80-/xbf]{2}|[/xf0...
  • eroswang
  • eroswang
  • 2007年09月24日 15:23
  • 1550

Perl匹配中文

    单日志页面显示设置  关闭 网易首页网易博客 博客首页博客拍拍精美风格博客圈子博客活动娱乐中心博客话题找 朋 友博客复制手机博客短信写博意见反馈...
  • jallin2001
  • jallin2001
  • 2009年11月13日 19:05
  • 5881
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:perl正则表达式中各种字符集的整理
举报原因:
原因补充:

(最多只允许输入30个字)