Java爬虫：用jsoup解析网页

最新推荐文章于 2022-04-22 15:39:44 发布

wangqianqianya

最新推荐文章于 2022-04-22 15:39:44 发布

阅读量497

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/wangqianqianya/article/details/86743669

版权

Jsoup的官网：https://jsoup.org/
主要功能：

1. 从一个URL，文件或字符串中解析HTML；

2. 使用DOM或CSS选择器来查找、取出数据；

3. 可操作HTML元素、属性、文本；

两种方法解析：

1、来自用户输入，一个文件或一个网站的HTML字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整：

静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

解析一个body片段可用：Jsoup.parseBodyFragment(String html)方法

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();//能取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同

2、从一个URL加载一个Document

parse(String html, String baseUri) 方法能够将输入的HTML解析为一个新的文档 (Document），参数 baseUri 是用来将相对 URL 转成绝对URL，并指定从哪个网站获取文档
只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含(至少) 一个head和一个body元素。
一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用 parse(File in, String charsetName) 代替。

数据抽取

使用DOM方法来遍历一个文档

从HTML文档中提取数据

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据：

//查看元素：
    getElementById(String id)
　　　　getElementsByTag(String tag)
　　　　getElementsByClass(String className)
　　　　getElementsByAttribute(String key) (and related methods)
　　　　Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
　　　　Graph: parent(), children(), child(int index)

//元素数据：
        attr(String key)获取属性attr(String key, String value)设置属性
　　　　attributes()获取所有属性
　　　　id(), className() and classNames()
　　　　text()获取文本内容text(String value) 设置文本内容
　　　　html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
　　　　outerHtml()获取元素外HTML内容
　　　　data()获取数据内容（例如：script和style标签)
　　　　tag() and tagName()

//操作HTML和文本

　　　　append(String html), prepend(String html)
　　　　appendText(String text), prependText(String text)
　　　　appendElement(String tagName), prependElement(String tagName)
　　　　html(String value)

完整实例：

从网页的投票页面中依据票数从高到低爬取参与者信息

import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

class Blogger{
	private  String no;
	private String name;
	private String articleNo;
	private int tickerNo;
	
	public String getNo() {
		return no;
	}

	public void setNo(String no) {
		this.no = no;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public String getArticleNo() {
		return articleNo;
	}

	public void setArticleNo(String articleNo) {
		this.articleNo = articleNo;
	}

	public int getTickerNo() {
		return tickerNo;
	}

	public void setTickerNo(int tickerNo) {
		this.tickerNo = tickerNo;
	}
}

public class Main {
	
	public static Blogger getBlogger(String line){
		Blogger blogger = new Blogger();
        String no = line.substring(0, line.indexOf(" "));
        String name = line.substring(line.indexOf(" ") + 1, line.indexOf(" 原创"));
        String articleNo = line.substring(line.indexOf("：") + 1, line.indexOf("当前") - 1);
        int ticketNo = Integer.valueOf(line.substring(line.indexOf("当前票数:") + 5, line.length()));
        blogger.setNo(no);
        blogger.setName(name);
        blogger.setArticleNo(articleNo);
        blogger.setTickerNo(ticketNo);
        return blogger;
	}

	public static void main(String[] args) throws IOException {		
		Document doc = Jsoup.connect("https://bss.csdn.net/m/topic/blog_star2018").get();
        Elements elements = doc.getElementsByClass("user-info");
        List<Blogger> list = new ArrayList<Blogger>();
        for (Element element : elements) {
            if (!element.text().trim().equals("")) {
                Blogger blogger = new Blogger();
                blogger = getBlogger(element.text());
                list.add(blogger);
            }
        }

        //System.out.println(list.size());
        Collections.sort(list, new Comparator<Blogger>(){
            /*
             * int compare(Person p1, Person p2) 返回一个基本类型的整型，
             * 返回负数表示：p1大于p2，
             * 返回0 表示：p1和p2相等，
             * 返回正数表示：p1小于p2
             */
            public int compare(Blogger p1, Blogger p2) {
                //按照Person的年龄进行升序排列
                if(p1.getTickerNo() < p2.getTickerNo()){
                    return 1;
                }
                if(p1.getTickerNo() == p2.getTickerNo()){
                    return 0;
                }
                return -1;
            }
        });
        
        int i = 1;
        for (Blogger blogger : list) {
            System.out.println(i + " " + blogger.getName() + " " + blogger.getTickerNo());
            i++;
        }
    }
}

文档：http://www.open-open.com/jsoup/load-document-from-url.htm