Java 爬虫爬取网页的标题以及其他主体内容

最新推荐文章于 2024-02-27 15:08:15 发布

Juvenile少年

最新推荐文章于 2024-02-27 15:08:15 发布

阅读量645

点赞数 8

分类专栏： javaweb java Java练习文章标签： java 爬虫开发语言

本文链接：https://blog.csdn.net/qq_46645079/article/details/136203695

版权

Java练习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

java

8 篇文章 0 订阅

订阅专栏

javaweb

2 篇文章 0 订阅

订阅专栏

Java 爬虫技术简介

Java 爬虫是一种使用 Java 编写的程序，用于从互联网上抓取数据。它可以自动访问网站并提取有用的信息，例如文本、图片、视频等。Java 爬虫技术可以用于各种应用，例如数据挖掘、网络监控、搜索引擎优化等。

Java 爬虫的基本原理

Java 爬虫的基本原理是通过发送 HTTP 请求获取网页内容，并解析网页中的 HTML、XML 或其他格式的数据。爬虫程序通常使用正则表达式、XPath 等技术提取所需的数据，并将其存储到本地或远程数据库中。

Java 爬虫的实现方式

Java 爬虫的实现方式有很多种，例如使用第三方库如 Jsoup、HttpClient 等，或者使用 Java 的内置网络编程接口如 URLConnection 等。下面是一个使用 Jsoup 库的简单示例：

package pack1;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.IOException;

/**
 * @Auther:wjw
 * @Date:2024/2/21 - 02 - 21 - 9:47
 * @Description: pack1
 * @version: 1.0
 */
public class WebCrawler {
    public static void main(String[] args) {
        // 要爬取的网站 URL
        String url = "https://www.taobao.com/";

        // 发起 HTTP GET 请求
        try {
            Document document = Jsoup.connect(url).get();
            // 解析 HTML 内容
            String title = document.title();
            String body = document.body().text();

            // 打印提取的数据
            System.out.println("Title: " + title);
            String formattedBody = body.replaceAll("(?<=[.!?]) +", "\n");
            System.out.println("Formatted Body:\n" + formattedBody);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在这里插入图片描述

在上面的代码中，我们使用了 Jsoup 库来发送 HTTP 请求并解析 HTML 内容。首先，我们创建了一个Jsoup对象，并使用connect()方法发起 HTTP GET 请求。然后，我们使用get()方法获取响应，并将其解析为一个Document对象。最后，我们使用title()和body().text()方法提取网页的标题和正文，并将其打印出来。

在 IntelliJ IDEA 中导入jsoup.jar包的具体步骤如下：

打开 IntelliJ IDEA 项目。
在项目的根目录下创建一个新的文件夹，通常命名为libs或lib。
将jsoup.jar文件复制到刚创建的libs文件夹中。
在 IntelliJ IDEA 中，右键点击项目根目录，选择Open Module Settings或Open Settings。
在弹出的设置窗口中，选择Modules选项卡。
在Modules列表中找到你的项目模块，点击展开。
选择Dependencies选项卡。
点击右侧的+按钮，选择JAR or Directory。
在弹出的文件选择对话框中，导航到libs文件夹并选择jsoup.jar文件。
IntelliJ IDEA 会自动将jsoup.jar添加为项目的依赖项。
点击OK按钮保存设置并关闭设置窗口。

现在，你已经成功将jsoup.jar包导入到 IntelliJ IDEA 项目中，可以在代码中使用jsoup库了。
请确保在导入jsoup.jar包之前已经正确安装了 Java 开发环境，并将 IntelliJ IDEA 配置为使用该 Java 版本。

更多精彩文章可扫码关注公主号查看：
在这里插入图片描述
若需要各种相关资源可关注公众号留言

Juvenile少年

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
Java 爬虫爬取网页的标题以及其他主体内容

Java 爬虫的基本原理是通过发送 HTTP 请求获取网页内容，并解析网页中的 HTML、XML 或其他格式的数据。爬虫程序通常使用正则表达式、XPath 等技术提取所需的数据，并将其存储到本地或远程数据库中。Java 爬虫的实现方式有很多种，例如使用第三方库如 Jsoup、HttpClient 等，或者使用 Java 的内置网络编程接口如 URLConnection 等。需要注意的是，爬取网页数据时需要遵守网站的使用条款和法律法规，爬取过程中应该保持适当的请求频率，并尊重网站的隐私政策和版权声明。
复制链接

扫一扫