大数据——JSoup爬虫技术

       我们抓取到页面之后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些方法都会带来很大的开发成本,所以我们需要使用一款专门解析html页面的技术——JSoup爬虫技术。

一、什么是JSoup?

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据(简称爬虫)。

 二、JSoup的主要功能

1、从一个URL,文件或字符串中解析HTML;

2、使用DOM或CSS选择器来查找、取出数据;

3、可操作HTML元素、属性、文本;

注意:虽然使用JSoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样使用,因为实际开发过程中,需要用到多线程,连接池,代理等方式,而JSoup对这些的支持并不是很好,所以我们一般吧JSoup仅仅作为Html解析工具使用。

三、jsoup中几种常用的对象

1、 Jsoup对象:可以解析html或xml文档

2、 Document:文档对象。指整个HTML文档的源码内容

3、 Elements:元素Element对象的集合。(可以当做Arraylist来使用)

4、 Element:元素对象,元素是节点的子集,所以一个元素也是一个节点

5、 NODE:节点对象,html中包含的内容都可以看成一个节点。节点有很多种类型:属性节点、注释节点、文本节点、元素节点等。解析html内容的过程,其实就是对节点操作的过程

 四、JSoup入门案例及其代码

首先配置maven

 1、获取html的几种方式

package com.yzh.itcast;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;

import java.io.File;
import java.net.URL;


/**
 * 使用JSoup实现页面解析
 */
public class JSoupTest {
    @Test
    public void testGetDoument() throws Exception {
        Document doc = Jsoup.connect("https://www.itcast.cn/").get();  //第一种
//  第二种      Document doc = Jsoup.parse(new URL("https://www.itcast.cn/"), 10000);
//  第三种      Document doc = Jsoup.parse(new File("jsoup.html"), "UTF-8");
//  第四种      String htmlStr = FileUtils.readFileToString(new File("jsoup.html"), "UTF-8");
//             Document doc = Jsoup.parse(htmlStr);
        System.out.println(doc);
    }
}

 2、获取节点元素

        Element titleElement = doc.getElementsByTag("title").first();
        String title = titleElement.text();
        System.out.println(title);

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值