package com.ahuiby.main;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Spider {
public static void main (String[] args){
try{
Document document=Jsoup.connect("http://www.baidu.com/").get();
//==========================================
//直接抓取页面元素模块
//==========================================
//抓取文章title标签
String title=document.title();
//抓取文章text标签内容
String text=document.text();
//获取Html文件中的body元素
Element body=document.body();
//获取a标签
Elements aArray=body.getElementsByTag("a");
//类选择器
Elements classArray=body.getElementsByClass("s_form");//此处为类名,截取的div的类名
//获取属性
Elements attributesArray=body.getElementsByAttribute("href");
//获取子元素
Elements children=body.children();
//==========================================
//选择器模块
//==========================================
Elements aSelect=document.select("a[href]");
System.out.println("页面标题: "+title+"\n 页面内容: "+text+
"\n body:\n"+ body);
System.out.println("=================================================");
System.out.println("所有a标签:\n"+aArray);
System.out.println("=================================================");
System.out.println("div:\n"+classArray);
System.out.println("=================================================");
System.out.println("href:\n"+attributesArray);
System.out.println("=================================================");
System.out.println("children:\n"+children);
System.out.println("=================================================");
System.out.println("aSelect:\n"+aSelect);
}catch (IOException e){
e.printStackTrace();
}
}
}