java爬虫——HttpClient爬取jsoup解析

nianyuw

已于 2022-08-31 10:48:10 修改

阅读量919

点赞数

分类专栏： Java 文章标签：爬虫 java

于 2022-08-27 18:32:36 首次发布

本文链接：https://blog.csdn.net/m0_61820867/article/details/126561034

版权

本文介绍了如何使用Java的HttpClient库进行网页爬取，并通过Jsoup解析HTML内容。首先讲解了HttpClient的基本用法，包括伪装浏览器避免反爬策略。然后展示了Jsoup的使用，用于提取特定数据，例如从网页中抓取图片资源。

摘要由CSDN通过智能技术生成

java爬虫HttpClient爬取jsoup解析

java爬虫HttpClient爬取jsoup解析
- 使用httpclientDemo爬取数据
- 使用jsoup解析html

使用httpclientDemo爬取数据

HttpClient 是Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。

引入依赖

<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.8</version>
</dependency>

新建一个包，写一个测试类

HttpClientTest

public class HttpClientTest {
   

    public static void main(String[] args) {
   
        //1.生成httpclient，相当于该打开一个浏览器
        CloseableHttpClient httpClient = HttpClients.createDefault();
        CloseableHttpResponse response = null;
        //2.创建get请求，相当于在浏览器地址栏输入 网址
        HttpGet request = new HttpGet("https://taolitop.com/");
        try {
   
            //3.执行get请求，相当于在输入地址栏后敲回车键
            response = httpClient.execute(request);
            //4.判断响应状态为200，进行处理
            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
   
                //5.获取响应内容
                HttpEntity httpEntity = response.getEntity();
                String html = EntityUtils.toString(httpEntity, "utf-8");
                System.out.println(html);

            } else {
   
                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略
                System.out.println("返回状态不是200");
                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
            }
        } catch (ClientProtocolException e) {