Java 抓取网页内容,获取指定服务器IP

Code:
  1. package ttwork.net;   
  2. import java.net.*;   
  3. import java.util.regex.*;   
  4. import java.io.*;   
  5. public class WebPage {   
  6.     public static void main(String[] args) {   
  7.         //http://zhidao.baidu.com/question/192012139.html   
  8.         WebPage wp = new WebPage("http://tieba.baidu.com/f?kz=664340519");   
  9.         //wp.getSubHTML(1, 20, "src/f2.html");   
  10.         wp.getInnerHTML("/^([//w-//.]+)@((//[[0-9]{1,3}//.[0-9]{1,3}//.[0-9]{1,3}//.)|(([//w-]+//.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(//]?)$/g""src/f2.html");   
  11.     }   
  12.     private URL url;                    //URL地址   
  13.     private InetAddress[] ip;           //IP地址   
  14.     private File desFile;               //目标文件   
  15.     private InputStreamReader isr;      //Reader   
  16.     private OutputStreamWriter osw;     //Writer   
  17.     private BufferedReader br;          //Reader   
  18.     private BufferedWriter bw;          //Writer   
  19.     /**  
  20.      * @param protocol 协议的名称  
  21.      * @param host     主机的名称或者域名  
  22.      */  
  23.     public WebPage(String _url) {   
  24.         try {   
  25.             url = new URL(_url);   
  26.             try {   
  27.                 ip = InetAddress.getAllByName(_url.substring(7));   
  28.             } catch (UnknownHostException e) {   
  29.                 ip = null;   
  30.             }   
  31.         } catch (MalformedURLException e) {   
  32.             e.printStackTrace();   
  33.         }          
  34.     }   
  35.     /**  
  36.      * 获取指定网站的ip地址,有些网站的ip地址不止一个  
  37.      * @return  字符串连接的ip地址  
  38.      */  
  39.     public String getAllIp() {   
  40.         String ipAll = null;   
  41.         for(int i=0; i<ip.length; i++) {   
  42.             ipAll += ip[i].toString()+"/n";   
  43.         }   
  44.         return ipAll;   
  45.     }   
  46.     /**  
  47.      * 得到该网页中的所有内容  
  48.      */  
  49.     public void getHTML(String desFilePath) {   
  50.         try {   
  51.             desFile = new File(desFilePath);   
  52.             isr = new InputStreamReader(url.openStream());   
  53.             osw = new OutputStreamWriter(new FileOutputStream(desFile));   
  54.             char[] line = new char[1024];   
  55.             while(isr.read(line) > 0) {   
  56.                 osw.write(line);   
  57.                 osw.flush();   
  58.             }   
  59.         } catch (FileNotFoundException e) {   
  60.             e.printStackTrace();   
  61.         } catch (IOException e) {   
  62.             e.printStackTrace();   
  63.         } finally {   
  64.             try {   
  65.                 osw.close();   
  66.                 isr.close();   
  67.             } catch (IOException e) {   
  68.                 e.printStackTrace();   
  69.             }   
  70.         }   
  71.     }   
  72.     /**  
  73.      * 按照正则表达式进行匹配,获取指定格式的内容,比如获取网页中所有的邮箱地址  
  74.      * 验证邮箱的正则表达式  
  75.      * /^([/w-/.]+)@((/[[0-9]{1,3}/.[0-9]{1,3}/.[0-9]{1,3}/.)|(([/w-]+/.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(/]?)$/g  
  76.      */  
  77.     public void getInnerHTML(String regex,String desFilePath) {   
  78.         try {   
  79.             desFile = new File(desFilePath);   
  80.             isr = new InputStreamReader(url.openStream());   
  81.             br = new BufferedReader(isr);   
  82.             osw = new OutputStreamWriter(new FileOutputStream(desFile));   
  83.             bw = new BufferedWriter(osw);   
  84.             Pattern p = Pattern.compile(regex);   
  85.             Matcher m;   
  86.             String line;   
  87.             while((line=br.readLine()) != null) {   
  88.                 m = p.matcher(line);   
  89.                 if(m.find()) {   
  90.                     int s = m.start();   
  91.                     int e = m.end();   
  92.                     bw.write(line.substring(s,e));   
  93.                     bw.flush();   
  94.                     bw.newLine();   
  95.                 }   
  96.             }   
  97.         } catch (FileNotFoundException e) {   
  98.             e.printStackTrace();   
  99.         } catch (IOException e) {   
  100.             e.printStackTrace();   
  101.         } finally {   
  102.             try {   
  103.                 bw.close();   
  104.                 osw.close();   
  105.                 br.close();   
  106.                 isr.close();   
  107.             } catch (IOException e) {   
  108.                 e.printStackTrace();   
  109.             }   
  110.         }   
  111.     }   
  112.     /**  
  113.      * 获取网页中指定行到指定行的内容,根据java中的原则包括startRow这一行,不包括endRow这一行  
  114.      *   
  115.      */  
  116.     public void getSubHTML(int startRow, int endRow, String desFilePath) {   
  117.         try {   
  118.             int rowNum = 0;   
  119.             desFile = new File(desFilePath);   
  120.             isr = new InputStreamReader(url.openStream());   
  121.             br = new BufferedReader(isr);   
  122.             osw = new OutputStreamWriter(new FileOutputStream(desFile));   
  123.             bw = new BufferedWriter(osw);   
  124.             String line;   
  125.             while((line=br.readLine()) != null) {   
  126.                 rowNum ++;   
  127.                 if(rowNum < startRow) {   
  128.                     continue;   
  129.                 } else if(rowNum>=startRow && rowNum<endRow) {   
  130.                     bw.write(line);   
  131.                     bw.flush();   
  132.                     bw.newLine();   
  133.                 } else {   
  134.                     break;   
  135.                 }   
  136.             }   
  137.         } catch (FileNotFoundException e) {   
  138.             e.printStackTrace();   
  139.         } catch (IOException e) {   
  140.             e.printStackTrace();   
  141.         } finally {   
  142.             try {   
  143.                 bw.close();   
  144.                 osw.close();   
  145.                 br.close();   
  146.                 isr.close();   
  147.             } catch (IOException e) {   
  148.                 e.printStackTrace();   
  149.             }   
  150.         }   
  151.     }   
  152. }  

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值