页面抓取原理

是根据页面节点进行定位筛选(多级选择器)。

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class TestPreview {
public static void main(String[] args) throws IOException {
    method1();
}
private static void method1() throws IOException {
    //userAgent:例如火狐下打开百度,f12,网络-所有-点击任意一个-右侧出来的请求头的UserAgent
    Document document = Jsoup
    .connect("http://www.cnblogs.com/yanan7890/")
    .timeout(10000)
    .ignoreContentType(true)
    .userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0")
    .get();
    //System.out.println(document);//获取整篇文档内容
    Elements es = document.select("#centercontent > div.day > div.postTitle >a");
    Element e = es.get(0);//获取满足条件的所有元素中的第一个标签元素
    // 处理标签内容为空时,返回""
    String text = e.text();
    String html = e.toString();
    System.out.println(text);//获取该标签元素的html内容
    System.out.println(html);//获取该标签元素
}
}
View Code

 

 

转载于:https://www.cnblogs.com/yanan7890/p/6595091.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值