Java数据采集-Jsoup抓取开源中国

最新推荐文章于 2024-07-17 14:26:58 发布

蓝星花

最新推荐文章于 2024-07-17 14:26:58 发布

阅读量1.5k

点赞数

文章标签： java 爬虫

使用JSoup 解析网页，语法使用 JS，css，Jquery 选择器语法，方便易懂

1.导入Jsoup所依赖的jar包。官网下载地址如下：
http://jsoup.org/packages/jsoup-1.8.1.jar

2.在main函数中使用Jsoup获取网页源码
String url = "http://www.oschina.net/news/list"; Document document = Jsoup.connect(url) .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0") .get();
此段代码意思为使用Jsoup链接url地址，并且返回封装该网页的html源码的Document树，userAgent为模拟浏览器头，get为使用get方式提交，关于connect的参数还有很多，请自行查看API学习。

3.分析网页源码
在目标网页上点击右键，火狐有使用FireBug查看元素，谷歌有审查元素，然后可以看到相应的源码和网页的对应情况

package com.demo.test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class t1 {
    public static void main(String[] args) throws IOException {
        String url = "https://www.oschina.net/news";
        Document document = Jsoup.connect(url)
                .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0")
                .get();
        Elements elements = document.select("#all-news .item");
        System.out.println("总共"+elements.size()+"条");
        for (Element element : elements) {
            Elements titleElement = element.select(".main-info a");
            String title = titleElement.text();
            String link = titleElement.attr("href").trim();
            Elements dataElement = element.select(".sc");
            String auther = dataElement.text();

            System.out.println("链接:" + "http://www.oschina.net"+link);
            System.out.println("标题:" + title);
            System.out.println("内容:" + auther);
            System.out.println();
        }
    }
}