用正则表达式切URL

最新推荐文章于 2021-05-30 18:31:47 发布

okie-dokie

最新推荐文章于 2021-05-30 18:31:47 发布

阅读量369

点赞数

分类专栏： java code 文章标签：正则表达式 .net IBM SUN

java code 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

String url = "http://www.iteye.com/news/6328-infoworld-ibm-is-negotiating-the-acquisition-of-sun";

Pattern pattern = Pattern.compile("^(?:(?:http|https)://)?(?:([\\w-\\.]+)\\.)?([\\w-]+)\\.(com|net|edu|org|com\\.cn|net\\.cn|edu\\.cn|org\\.cn)(?:/|/.+)?");
Matcher match = pattern.matcher(url);
System.out.println(match.toString());
if (match.matches()) {
	int len = match.groupCount();
	for (int i = 1; i <= len; i++) {
		System.out.print("[" + match.group(i) + "]");
	}
} else {
	System.out.println("0_0 wrong");
}

(?:(?:http|https)://)?

(?:([\w-\.]+)\.)?

([\w-]+)\.

(com|net|edu|org|com\.cn|net\.cn|edu\.cn|org\.cn)

(?:/|/.+)?

对直接的 .cn域名有问题

不要说 String类的 replace, splite方法对 |. 什么什么的字符不起作用，因为它们的参数是正则表达式，而不是字符或者字符串，|. 作为正则表达式都是具有特殊意义的。

对上面例子的捕获结果是 [www][javaeye][com]

java 的正则有个地方需要注意下

Matcher : groupCount()方法返回的那个数字不包括group(0)

注意 i的最大值

 i <= match.groupCount()

刚搞明白一件事情，mathers是全匹配，find是查找匹配项。

groupCount()返回正则表达式里的捕获项的数量，也就是说它等于正则表达式里用于捕获的()的数量。group()和group(0)返回的是整个正则表达式的匹配内容，group(int group)参数大于0的时候，返回的是正则表达式内的捕获项。

String pattern = "<a(?: [^>]+)>(.+?)</a>";

String html = "<tr><td>1</td><td><div class=\"tbpd-shop\"><div class=\"imgdiv\"><a target=\"_blank\" href=\" http://shop34374066.taobao.com\"><img  src=\" http://logo.taobao.com/shop-logo/d6/b0/T1StN7XgJsXXb1upjX\"/></a></div><div class=\"tbpd-shopname\"><a class=\"tbpd-shopname-link\" target=\"_blank\" href=\" http://shop34374066.taobao.com\">卷毛小博士(每周六、周日上新，100%店主实拍）卷毛家韩版欧美风</a><br><a id=\"J_Trigger1\" class=\"J_Trigger\" href=\"javascript:void(0);\" data-popup=\"#J_Popup1\">查看店内热销宝贝</a></div></div></td><td><span class=\"index-up\">3693.57%</span></td></tr>";
// System.out.println(html);
// String result = html.replaceAll(pattern, "!!!");
// System.out.println(result);

Pattern p = Pattern.compile(pattern);
Matcher m = p.matcher(html);
while (m.find()) {	
	System.out.println(m.group());

	int count = m.groupCount();
	for (int i = 1; i <= count; i++) {
		System.out.println("\t" + m.group(i));
	}	
}

okie-dokie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用正则表达式切URL

String url = "http://www.iteye.com/news/6328-infoworld-ibm-is-negotiating-the-acquisition-of-sun";Pattern pattern = Pattern.compile("^(?:(?:http|https)://)?(?:([\\w-\\.]+)\\.)?([\\w-]+)\\.(com|net...
复制链接

扫一扫

专栏目录