提取HTML <a>标签 href属性:(?<=href=("|'))[^("|')]*?(?=("|')) 说明:在 herf=("或') 之后,0或多个非("或') 字符但尽可能少,在 ("或') 之前。
提取HTML <a>标签的innerHTML2:(?<=(<a.*?>)).*?(?=</a>) 在java中改为(?<=(<a.{0,500}?>)).*?(?=</a>)
提取HTML <a>标签的innerHTML:(?<=<a[^>]*?>)[^<]*?(?=</a>)
在JDK中报错,用{0,200}代替*,改用:(?<=<a[^>]{0,200}?>)[^<]*?(?=</a>)
原因:http://m.blog.csdn.net/LinBilin_/article/details/53393585
提取HTML <title>标签的innerHTML:(?<=<title>).*?(?=</title>) 某某之后,非换行,尽可能少,某某之前
也可以用(?<=<title>)[^<]*?(?=</title>)