爬虫学习-------Jsoup简单方法测试

package com.ahuiby.main;

import java.io.IOException;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Spider {
	
	public static void main (String[] args){
		try{
			Document document=Jsoup.connect("http://www.baidu.com/").get();
			//==========================================
			//直接抓取页面元素模块
			//==========================================
			//抓取文章title标签
			String title=document.title();
			//抓取文章text标签内容
			String text=document.text();
			//获取Html文件中的body元素
			Element body=document.body();
			//获取a标签
			Elements aArray=body.getElementsByTag("a");
			//类选择器
			Elements classArray=body.getElementsByClass("s_form");//此处为类名,截取的div的类名
			//获取属性
			Elements attributesArray=body.getElementsByAttribute("href");
			//获取子元素
			Elements children=body.children();
			//==========================================
			//选择器模块
			//==========================================
			Elements aSelect=document.select("a[href]");
			
			System.out.println("页面标题: "+title+"\n 页面内容: "+text+
					"\n body:\n"+ body);
			System.out.println("=================================================");
			
			System.out.println("所有a标签:\n"+aArray);
			System.out.println("=================================================");
			System.out.println("div:\n"+classArray);
			System.out.println("=================================================");
			System.out.println("href:\n"+attributesArray);
			System.out.println("=================================================");
			System.out.println("children:\n"+children);
			System.out.println("=================================================");
			System.out.println("aSelect:\n"+aSelect);
			
		}catch (IOException e){
			e.printStackTrace();
		}
		
	}

}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值