String url = "http://www.iteye.com/news/6328-infoworld-ibm-is-negotiating-the-acquisition-of-sun";
Pattern pattern = Pattern.compile("^(?:(?:http|https)://)?(?:([\\w-\\.]+)\\.)?([\\w-]+)\\.(com|net|edu|org|com\\.cn|net\\.cn|edu\\.cn|org\\.cn)(?:/|/.+)?");
Matcher match = pattern.matcher(url);
System.out.println(match.toString());
if (match.matches()) {
int len = match.groupCount();
for (int i = 1; i <= len; i++) {
System.out.print("[" + match.group(i) + "]");
}
} else {
System.out.println("0_0 wrong");
}
^
(?:(?:http|https)://)?
(?:([\w-\.]+)\.)?
([\w-]+)\.
(com|net|edu|org|com\.cn|net\.cn|edu\.cn|org\.cn)
(?:/|/.+)?
对直接的 .cn域名有问题
不要说 String类的 replace, splite方法对 |. 什么什么的字符不起作用,因为它们的参数是正则表达式,而不是字符或者字符串,|. 作为正则表达式都是具有特殊意义的。
对上面例子的捕获结果是 [www][javaeye][com]
java 的正则有个地方需要注意下
Matcher : groupCount()方法返回的那个数字 不包括group(0)
注意 i的最大值
i <= match.groupCount()
刚搞明白一件事情,mathers是全匹配,find是查找匹配项。
groupCount()返回正则表达式里的捕获项的数量,也就是说它等于正则表达式里用于捕获的()的数量。group()和group(0)返回的是整个正则表达式的匹配内容,group(int group)参数大于0的时候,返回的是正则表达式内的捕获项。
String pattern = "<a(?: [^>]+)>(.+?)</a>";
String html = "<tr><td>1</td><td><div class=\"tbpd-shop\"><div class=\"imgdiv\"><a target=\"_blank\" href=\" http://shop34374066.taobao.com\"><img src=\" http://logo.taobao.com/shop-logo/d6/b0/T1StN7XgJsXXb1upjX\"/></a></div><div class=\"tbpd-shopname\"><a class=\"tbpd-shopname-link\" target=\"_blank\" href=\" http://shop34374066.taobao.com\">卷毛小博士(每周六、周日上新,100%店主实拍)卷毛家韩版欧美风</a><br><a id=\"J_Trigger1\" class=\"J_Trigger\" href=\"javascript:void(0);\" data-popup=\"#J_Popup1\">查看店内热销宝贝</a></div></div></td><td><span class=\"index-up\">3693.57%</span></td></tr>";
// System.out.println(html);
// String result = html.replaceAll(pattern, "!!!");
// System.out.println(result);
Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(html);
while (m.find()) {
System.out.println(m.group());
int count = m.groupCount();
for (int i = 1; i <= count; i++) {
System.out.println("\t" + m.group(i));
}
}