java使用jsoup爬取网页内容

最新推荐文章于 2021-02-28 13:13:31 发布

weixin_34378922

最新推荐文章于 2021-02-28 13:13:31 发布

阅读量176

点赞数

文章标签： java 爬虫 python

原文链接：https://my.oschina.net/u/2484728/blog/899980

版权

2019独角兽企业重金招聘Python工程师标准>>>

1. jsoup概念

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。

2. jsoup的主要功能

1. 从一个URL，文件或字符串中解析HTML；

2. 使用DOM或CSS选择器来查找、取出数据；

3. 可操作HTML元素、属性、文本；

注：jsoup是基于MIT协议发布的，可放心使用于商业项目。

3. maven依赖

<dependency>
   <groupId>org.jsoup</groupId>
   <artifactId>jsoup</artifactId>
   <version>1.7.2</version>
</dependency>

4. 代码实现

4.1 目标代码

4.2 代码实现

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
* ClassName: TestJsoup
* @Description: http://www.open-open.com/jsoup/selector-syntax.htm
* @author limh
* @date 2017年5月15日
*/
public class TestJsoup {

   public Document getDocument (String url){
       try {
       return Jsoup.connect(url).get();
       } catch (IOException e) {
       e.printStackTrace();
       }
       return null;
       }

   public static void main(String[] args) {
       TestJsoup t = new TestJsoup();
       Document doc = t.getDocument("http://www.lizhi.fm/193491/");
       //Document doc = t.getDocument("http://www.lizhi.fm/250837/");
       // 获取目标HTML代码
       //Elements elements1 = doc.select("[class=audioList fontYaHei]");
       //找出第一个class为.audioList.fontYaHei的ul
       Element elements1 = doc.select("ul.audioList.fontYaHei").first();
       //
       Elements elements2 = elements1.select("li");
       Elements elements3 = elements2.select("a:contains(【直播】)"); //查找包含【直播】文本的a元素
       String relHref = elements3.attr("data-url"); //获取a元素的data-url属性
       System.out.println(relHref);
   }

}

转载于:https://my.oschina.net/u/2484728/blog/899980