Java 抓取网页数据

6 篇文章 0 订阅
6 篇文章 0 订阅

题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下

目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。

首先选择一个地址,比如http://www.51leba.com

 

代码部分如下: 

Java代码   收藏代码
  1. try{  
  2.             URL url = new URL("http://www.51leba.com");  
  3.             URLConnection conn = url.openConnection();  
  4.                
  5.             BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));  
  6.             StringBuffer buffer = new StringBuffer();  
  7.             String str;  
  8.             while((str = is.readLine()) != null){  
  9.                 buffer.append(str);  
  10.                 buffer.append("\n");  
  11.                   
  12.             }  
  13.             str = buffer.toString().replaceAll("<script(.|\n)+?</script>""").replaceAll("<(.|\n)+?>""").replaceAll("&nbsp;"" ");  
  14.             String[] s = str.split("\n");  
  15.             buffer = new StringBuffer();  
  16.             for(int i=0;i<s.length;i++){  
  17.                 if(s[i].trim().equals("") ){  
  18.                     continue;  
  19.                 }else{  
  20.                     buffer.append(s[i]);  
  21.                     buffer.append("\n");  
  22.                 }  
  23.             }  
  24.             System.out.println(buffer.toString());  
  25.               
  26.             is.close();  
  27.               
  28.         }catch (Exception e) {  
  29.             e.printStackTrace();  
  30.         }  

 

 

 得到的结果是:

Java代码   收藏代码
  1. 欢迎光临51乐吧!  
  2.     欢迎光临51乐吧!  
  3.         回家倒计时  
  4.      拼音转汉字  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值