java网络爬虫程序

package com.xjtu.spider;   
import java.io.File;   
import java.io.IOException;   
import org.jsoup.Jsoup;   
import org.jsoup.nodes.Document;   
import org.jsoup.select.Elements;   
/**  
 *   
 * <p>  
 * Title: 爬虫测试  
 * </p>  
 *   
 * @author dml@2013-2-17  
 * @version 1.0  
 */  
public class PageParse {   
 public static void main(String[] args) {   
  PageParse t = new PageParse();   
  System.out.println("===========t.parseString()==============");   
  t.parseString();   
  System.out.println("===========t.parseUrl()==============");   
  t.parseUrl();   
 }   
 /**  
  * 解析字符串  
  *   
  */  
 public void parseString() {   
  String html = "<html><head><title>blog</title></head><body οnlοad='test()'><p>Parsed HTML into a doc.</p></body></html>";   
  Document doc = Jsoup.parse(html);   
  Elements es = doc.body().getAllElements();   
  System.out.println("获取onload方法名:" + es.attr("onload"));   
  System.out.println("获取指定标签内容:" + es.select("p"));   
 }   
 /**  
  * 解析URL  
  */  
 public void parseUrl() {   
  try {   
   Document doc = Jsoup.connect("http://www.baidu.com/").get();   
   Elements hrefs = doc.select("a[href]");   
   System.out.println("获取链接地址方式一:" + hrefs);   
   System.out.println("------------------");   
   System.out.println("获取链接地址方式二:" + hrefs.select("[href^=http]"));   
  } catch (IOException e) {   
   e.printStackTrace();   
  }   
 }   
 /**  
  * 解析文件  
  */  
  public void parseFile() {   
   try {   
    File input = new File("input.html");   
    Document doc = Jsoup.parse(input, "UTF-8");   
    // 提取出所有的编号   
    Elements codes = doc.body().select(   
    "td[title^=IA] > a[href^=javascript:view]");   
    System.out.println(codes);   
    System.out.println("------------------");   
    System.out.println(codes.html());   
   } catch (IOException e) {   
    e.printStackTrace();   
   }   
  }   
}  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值