js-匹配边界

最新推荐文章于 2022-07-11 15:57:39 发布

weixin_33831196

最新推荐文章于 2022-07-11 15:57:39 发布

阅读量274

点赞数

文章标签： python

原文链接：https://my.oschina.net/lgmcolin/blog/85250

版权

2019独角兽企业重金招聘Python工程师标准>>>

通常情况下，以空格、段落首行、段落末尾、逗号、句号等符号作为边界，值得注意的是，分隔符“-”也可以作为边界。

正则如下：

`1`	`\bmagic\b`

效果演示

welcome to nowa-magic this magic place!

本例代码

 
function reg_replace() 
 
{ 
 
    var test = document.getElementById("test"); 
 
    var regex = /\b(magic)\b/g; 
 
    test.innerHTML = test.innerHTML.replace(regex,"<span style='background-color:orange'>$1</span>"); 
 
}

这是什么原因呢？其实很好理解，从“-”的字面意思：分隔符，大致就可以想到了。实际上，在英语中，它是用来做单词分隔的。

这里有个重要的搜索引擎优化常识，大家注意到本文档的命名，我采用的是：Regular-Expression-Tutorial.pdf，为什么不用下划线分隔，命名成Regular_Expression_Tutorial.pdf 呢？因为当搜索引擎看到“-”的时候，会把它视为一个空格“ ”，而看到下划线“_”的时候，会把它视为空字符“”，实际上，下划线的正确叫法是“连字符”。于是，当我命名为 Regular-Expression-Tutorial.pdf 时，搜索引擎看到的是： Regular Expression Tutorial.pdf，而当我命名成 Regular_Expression_Tutorial.pdf 时，搜索引擎看作 RegularExpressionTutorial.pdf 。

可以看出，正则表达式在字符边界问题上对“-”的处理方式与搜索引擎相同。

边界的相对性：

当你对一个普通字符，比如“s”，设定边界的时候，它的边界是诸如空格、分隔符、逗号、句号等。
当你对一个边界，比如分隔符“-”或者“,”等，设定边界的时候，它的边界是普通字符。

正则如下：

1 \b(,)\b

效果演示

welcome to nowamagic,this magic place!

与上面唯一不同的是：这次我们匹配逗号“,”，而它本身也是一个边界，结果与上面完全相反。可见，对于“,”而言，它的边界是一个普通字母。

边界的相对性是很重要的，因为我们很多时候需要匹配诸如“<”这样的字符。

有的时候，我们想要匹配的字符串必须位于全部文本的首位，比如说 XML 文件的声明“<?xml version="1.0" encoding="UTF-8" ?>”；有的时候，需要匹配的字符串位于全部文本的末尾，比如</html>。对于这种匹配，上面介绍的单词边界匹配就无能为力了。

匹配文本首

在正则表达式中，可以在匹配模式的第一个字符前添加 “^”，以匹配满足模式且位于全部文本之首的字符串。可以将它的匹配方式理解成这样：

假设不存在“^”，进行一个正常匹配，将所有匹配的文本保存到匹配集合中；
在匹配集合中寻找位于所搜索的文本首位的匹配；
从匹配集合中删除其他匹配，仅保留该匹配。

正则如下：

^(\s*nowamagic\d?\.net)

效果演示

nowamagic.net and nowamagic2.net are websites.

本例代码

function reg_replace()
{
	var test = document.getElementById("test");
	var regex = /^(\s*nowamagic\d?\.net)/g;
	test.innerHTML = test.innerHTML.replace(regex,"<span style='background-color:orange'>$1</span>");
}

我们进行文本边界匹配时，通常还需要添加对空字符的处理所以需要在字符串前加上\s*

按照之前说的，它的匹配过程是这样：