爬虫基础之Jsoup解析HTML

Jsoup的Maven坐标

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.7.2</version>

</dependency>

Jsoup解析HTML得到Document的几种方式:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/**
 * 解析HTML的DOM数据
 */
public class JsoupDom {

    public static void main(String[] args) throws IOException {
        String html = "<!DOCTYPE html>\n" +
                "<html lang=\"en\">\n" +
                "<head>\n" +
                "    <meta charset=\"UTF-8\">\n" +
                "    <title>Title</title>\n" +
                "</head>\n" +
                "<body>\n" +
                "\n" +
                "</body>\n" +
                "</html>";
        //方式一:获取Document对象
        Document document = Jsoup.parse(html);
        System.out.println(document.title());
        //方式二:获取Document对象
        Document document1 = Jsoup.connect("http://www.bingosoft.net").get();
        Elements elements = document1.select(".city h3");
        System.out.println(elements+",,,"+elements.text());
        //方式三:获取Document对象
//        Document document2 = Jsoup.parse(new File("html_path"), "UTF-8");
        //方式四:获取Document对象
        String bodyHtml = "<a href='#'>连接</a>";
        Document document3 = Jsoup.parseBodyFragment(bodyHtml);
        System.out.println(document3.text());
    }
}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值