使用 jsoup实现网页抓取

本文介绍了如何利用Java库jsoup进行网页抓取。通过DOM、CSS和jQuery-like的方法,jsoup能方便地解析HTML内容。教程中展示了下载jsoup.jar后,获取网站根节点、特定class节点、h2标签及其内部a标签的文字和链接的步骤。
摘要由CSDN通过智能技术生成

简介: 

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML 解析。

准备工作:

下载jsoup.jar包:https://jsoup.org/download
代码:

Document document = Jsoup.connect(url).post();

获取整个网站的根节点,也就是html开头部分一直到结束

Elements content=document.getElementsByClass("content");

获取class为content的节点

Elements h = content.select("h2");

在上一节点下获取所有h2标签
 

                
for(int j=0;j<h.size();j++){
    String tit=h.get(j).text();
    //System.out.println(tit);
    String s = h.get(j).select("a").attr("href");
    System.out.print
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值