今天在写程序的时候,碰到了一个怪事。
我想采集一个网址的链接,然后提取链接文字。为了完成这一步骤,我分两步走:
1、提前和之间的内容。如 从 "p id=km> 空间 | 空间
2、提取出"空间"两个字。
以下是我的代码。
importjava.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegTest
{publicstaticvoidmain(String[] args)
{
String s="
空间 |
String regex="";//String regex = "(.*)
";Pattern pt=Pattern.compile(regex);Matcher mt=pt.matcher(s);while(mt.find())
{
System.out.println(mt.group());
String s2=">.*?";
Pattern pt2=Pattern.compile(s2);
Matcher mt2=pt2.matcher(mt.group());System.out.println(mt2.group());//请注意这里
}
}
}
上面这个程序是错误的
下面的程序才是对的,也就是,将执行代码
System.out.println(mt2.group());//请注意这里
更改为
while(mt2.find())
{System.out.println(mt2.group());//请注意这里
}
下面是正确的代码。
importjava.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegTest
{publicstaticvoidmain(String[] args)
{
String s="
空间 |
String regex="";//String regex = "(.*)
";Pattern pt=Pattern.compile(regex);Matcher mt=pt.matcher(s);while(mt.find())
{
System.out.println(mt.group());
String s2=">.*?";
Pattern pt2=Pattern.compile(s2);
Matcher mt2=pt2.matcher(mt.group());while(mt2.find())
{System.out.println(mt2.group());//请注意这里
}
}
}
}
我是这么理解的:实际上,只有执行了find()方法 后,状态机matcher才是真正开始进行匹配工作的!