匹配正则_中文匹配正则怎么写

最新推荐文章于 2023-09-28 11:57:09 发布

疯疯疯狂的野兔

最新推荐文章于 2023-09-28 11:57:09 发布

阅读量156

点赞数

文章标签：匹配正则

本文链接：https://blog.csdn.net/weixin_33656238/article/details/112708013

版权

本文探讨了Unicode编码在中文正则匹配中的应用误区，重点讲解了[u3a00-ufa99]范围的实际含义，并提供了针对汉字的精确正则表达式实现，如isUnihan函数。通过实例说明如何统计字节数并处理中日韩统一表意文字字符。

摘要由CSDN通过智能技术生成

我们从网上搜索到的结果大多数都是这个答案：[u4e00-u9fa5]，这个和判断字母的正则 [a-zA-Z] 一样，应该是一个范围值。

但是 u3e00 在控制台的结果是"㸀"，这个也是中文字，那个 [u4e00-u9fa5] 正则就不准确了。

u3e00 实际上是“㸀”字的 Unicode 编码 U+3E00。㸀位于中日韩统一表意文字扩充A区。

什么是 Unicode 码，Unicode 也叫万国码、国际码、统一码、单一码，是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得计算机可以用更为简单的方式来呈现和处理文字。并且 Unicode 每年都在增修，每个版本都会加入新的字符。

中日韩统一表意文字，统一汉字、统汉码（英语：Unihan），因为一些国家受到汉字文化的影响，一些文字的形状意思还是一样的，就可以把这些文字统一编一个 Unicode 码，省了很多麻烦。

因为 Unicode 在不断修订更改，导致上面的正则不完全准确。

与其说是中文正则匹配，其实汉字正则匹配更加合适。我在浏览器控制台做了下验证，[u3a00-ufa99] 范围内是有文字的，注：测试结果仅限于Chrome 版本 74.0.3729.157 版本浏览器。具体可以去 Unicode 官网验证下：https://www.unicode.org/Public/zipped/12.1.0/

那我们汉字正则匹配就可以这么写：

/**
 * 是否为汉字
 * String keyword
 */
function isUnihan (keyword) {
  return /^[u3a00-ufa99]+$/.test(keyword)
}

单字节占一个字符，双字节占两个字符，汉字都是两字节，匹配双字节字符(包括汉字在内)：[^x00-xff]，利用这个我们可以统计字节数。

/**
 * 计算字节数
 * String str
 */
function strLen (str) {
  const len = str.length
  let Len = len
  const reg = /[^x00-xff]/
  for (let i = 0;i < len; i++) {
     if (reg.test(str.chartAt(i))) {
       Len++
     }
  }
  return Len
}

疯疯疯狂的野兔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
匹配正则_中文匹配正则怎么写

我们从网上搜索到的结果大多数都是这个答案：[u4e00-u9fa5]，这个和判断字母的正则 [a-zA-Z] 一样，应该是一个范围值。但是 u3e00 在控制台的结果是"㸀"，这个也是中文字，那个 [u4e00-u9fa5] 正则就不准确了。u3e00 实际上是“㸀”字的 Unicode 编码 U+3E00。㸀位于中日韩统一表意文字扩充A区。什么是 Unicode 码，Unicode 也叫万国码、...
复制链接

扫一扫