最近做spider,java的正则表达式解析出每个网页的超链接,感觉正则真的神通广大!
大概说一下,我的通常用法。
这一不只是解析出 <a href=""> 这部分
String regex = "(<a href=/")([//S]+)(/")";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(sb); //sb是一个html 代码的String
while (matcher.find()) {
String str = matcher.group(2).toString();
}
Stringbuffer的清空:
sb.delete(beg,end);
或
sb.steLength(0);
Html超链接的分类
绝对路径
1)<a href="http......................."
相对路径
2) <a href="../index.htm"
3) <a href="index.html"
邮件地址
4) <a href="mailto:abc@gmail.com">
链接锚
<a href="#mark2">
有时间慢慢补充体会,,