通过正则表达式获取网站源码中的超链接
1、(?<=<a href=")http.+?(?=") 表示:搜索的字符串前面为**<a href=** 后面为**"**,字符串的开头是http,非贪婪模式
public class WebSpiderTest {
/**
* 获得URL对应的网页的源码内容
* @param urlStr
* @return
*/
public static String getURLContent(String urlStr,String charset) {
StringBuilder sb=new StringBuilder();
try {
URL url = new URL(urlStr);
BufferedReader reader = new BufferedReader(new InputStreamReader(url.