正则表达式知识详解之实战 读取网页中超链接 (java版示例)

正则表达式知识详解系列,通过代码示例来说明正则表达式知识 

源代码下载地址:http://download.csdn.net/detail/gnail_oug/9504094


示例功能:

1、根据一个url,获取页面里的所有的超链接


步骤一、根据url读取页面内容

	/**
	 * 根据url读取网页内容
	 * @date 2016-04-27 10:34:13
	 * @author sgl
	 * @param urlStr
	 * @return
	 */
	public static String readHtml(String urlStr){
		StringBuffer sb=new StringBuffer("");
		BufferedReader br=null;
		try {
			URL url=new URL(urlStr);
			HttpURLConnection conn=(HttpURLConnection)url.openConnection();
			InputStream in=conn.getInputStream();
			br=new BufferedReader(new InputStreamReader(in));
			String line=null;
			while((line=br.readLine())!=null){
				sb.append(line);
			}
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally{
			if(br!=null){
				try {
					br.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
		
		return sb.toString();
	}

步骤二、从页面内容中找超链接

	/**
	 * 从字符串中找出超链接
	 * @date 2016-04-27 10:35:27
	 * @author sgl
	 * @param str
	 * @return
	 */
	public static List<String>findLink(String str){
		Pattern p=Pattern.compile("<[Aa]\\s+(.*?\\s+)*?href\\s*=\\s*([\"']).+?\\2\\s*(\\s+.*?\\s*)*?>.+?</[Aa]>");
		Matcher m=p.matcher(str);
		List<String>list=new ArrayList<String>();
		while(m.find()){
			list.add(m.group());
		}
		return list;
	}

步骤三、获取超链接

	public static void main(String[] args) {
		String htmlTxt=Demo03.readHtml("http://www.csdn.net/");
		List<String>list=Demo03.findLink(htmlTxt);
		for(String str:list){
			System.out.println(str);
		}
		System.out.println(list.size());
	}

运行结果:(中间部分省略了)

<a href="https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn">登录</a>
<a href="http://passport.csdn.net/account/mobileregister?action=mobileRegister">注册</a>
<a href="https://passport.csdn.net/help/faq">帮助</a>
...
<a href="http://www.csdn.net/company/icp.html">电信业务审批[2007]字第380号</a>
<a href="http://www.csdn.net/company/pifu.html">电信与信息服务业务经营许可证070598号</a>
<a href="http://www.hd315.gov.cn/beian/view.asp?bianhao=010202001032100010" target="_blank"><img src="http://c.csdnimg.cn/www/images/gongshang_logos.gif" alt="GongshangLogo" alt="' title="" /></a>
394










评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值