java 爬虫例子

最新推荐文章于 2023-02-17 22:46:39 发布

基鑫阁

最新推荐文章于 2023-02-17 22:46:39 发布

阅读量390

点赞数

文章标签： java 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_35749796/article/details/129071459

版权

好的，这是一个使用 Java 写的爬虫的简单例子。

首先，我们需要准备一些工具，比如用于发送 HTTP 请求的库和用于解析 HTML 的库。这里我们可以使用 Apache HttpComponents 和 JSoup。

先来安装这两个库，可以在项目的 build.gradle 文件中添加如下依赖：

dependencies {implementation 'org.apache.httpcomponents:httpclient:4.5.10'
    implementation 'org.jsoup:jsoup:1.13.1'
}

然后我们可以开始编写代码了。

首先，我们需要创建一个 HttpClient 对象，用于发送 HTTP 请求：

CloseableHttpClient httpClient= HttpClients.createDefault();

然后我们可以使用 HttpClient 发送一个 GET 请求，获取目标网页的 HTML 内容：

HttpGet httpGet= new HttpGet("http://example.com");
CloseableHttpResponse response = httpClient.execute(httpGet);

HttpEntity entity = response.getEntity();
String html = EntityUtils.toString(entity);

接着，我们可以使用 JSoup 解析 HTML 内容，提取我们需要的信息。

Document doc = Jsoup.parse(html);// 获取页面的标题
String title = doc.title();

// 获取页面的所有链接
Elements links = doc.select("a[href]");
for (Element link : links) {
    String linkUrl = link.attr("abs:href");
    String linkText = link.text();
}