对各字符集编码范围的总结

对各字符集编码范围的总结

url: http://in.sdo.com/?p=1184

 

网上关于GBKGB2312BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断

这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

 

UTF8: [\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3} 

 

UTF16: [\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2} 

 

JIS: [\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2} 

 

SJIS: [\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc]) 

 

BIG5: [\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe]) 

 

GBK: [\x01-\x7f]|[\x81-\xfe][\x40-\xfe] 

 

GB2312汉字: [\xb0-\xf7][\xa0-\xfe] 

 

GB2312半角标点符号及特殊符号: \xa1[\xa2-\xfe] 

 

GB2312罗马数组及项目序号: \xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc]) 

 

GB2312全角标点及全角字母: \xa3[\xa1-\xfe] 

 

GB18030: [\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39] 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ANSI编码格式是一种常见的字符编码格式,它可以用来将文本、图像和其他数据在不同的计算机环境中进行编码和解码。它是一种通用的标准,用于在不同的计算机系统之间交换信息。它可以存储256种不同的字符,其中包括ASCII字符集以及拉丁字符、中文和其他多语言。 ### 回答2: ANSI编码格式是一种将字符和数字转换成计算机可以识别和存储的二进制数据的方式。它是由美国国家标准化组织(ANSI)制定的一套字符编码标准。 ANSI编码格式最常见的是ANSI字符集,它使用一个字节(8个比特)来表示每个字符。这套编码格式可包括128个字符,其中包括英文字母、数字、标点符号和一些特殊字符。它最早用于ASCII(美国信息交换标准代码)编码标准,后来逐渐发展为包括更多字符的标准。 然而,由于只有128个字符的限制,无法满足其他语言的需求。为了解决这个问题,ANSI编码格式发展出了多种变体,如ANSI/Windows-1252、ANSI/Windows-1251等,它们可以支持不同的语言字符集,如西欧语言、东欧语言等。 然而,随着全球化和国际化的发展,ANSI编码格式的局限性逐渐暴露。为了应对不同国家和地区的字符需求,Unicode编码格式应运而生。Unicode采用16位或32位的编码方案,能够表示更多的字符和符号,包括全球各种文字和符号。与ANSI相比,Unicode提供了更全面、更统一的字符编码方案,被广泛应用于互联网和计算机系统。 总之,ANSI编码格式是一种用于字符和数字转换的标准,它通过使用1字节表示每个字符编码。虽然ANSI编码格式有局限性,但它为ASCII以及其他语言的字符编码提供了一种基础。随着技术的发展,Unicode编码格式逐渐取代了ANSI,成为主流的字符编码标准。 ### 回答3: ANSI是一种字符编码格式,全称为American National Standard Institute,中文名称为美国国家标准学会,它定义了一套字符编码标准。最早是在美国开发的,被广泛用于英文环境中。 ANSI编码格式最初是为了解决英文字符编码问题,它使用了一个字节(8位)来表示一个字符,总共支持了128个字符,包括英文字母、数字、标点符号、控制字符等。其中,前32个字符是控制字符,用于控制打印机和终端设备的操作,如换行、退格等。 随着计算机的普及和发展,ANSI编码逐渐扩展了字符集,形成了ANSI编码的扩展版本,比如Windows系统中的常用编码格式ANSI(Windows-1252),它支持了更多的字符,包括欧洲语言中的特殊字符。 但是需要注意的是,ANSI编码格式是一种单字节编码,只能支持有限的字符集,无法满足全球范围内各种语言的需求。随着国际化和多语言环境的需求增加,逐渐被Unicode编码所取代。 总结来说,ANSI编码格式是一种最初用于英文环境的字符编码,使用一个字节表示一个字符,支持128个字符,后来发展出更多扩展版本,但由于其局限性,逐渐被Unicode编码所取代。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值