一,导入依赖
org.jsoup
jsoup
1.10.3
org.apache.httpcomponents
httpclient
二,编写demo类
注意不要导错包了,是org.jsoup.nodes下面的
package com.taotao.entity;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Author: TaoTao 2019/9/26
*/
public class intefaceTest {
public static void main(String[] args) throws IOException {
CloseableHttpCli

本文是一篇关于使用Java和Jsoup库爬取网页的入门教程。首先介绍了导入必要的依赖,如jsoup和httpclient。接着展示了一个简单的Java demo,通过创建HttpClient执行GET请求,获取网页内容,然后利用Jsoup解析HTML,提取title和特定id的元素信息。展示了如何获取网页标题和指定ID的元素文本。
最低0.47元/天 解锁文章
536

被折叠的 条评论
为什么被折叠?



