好的,这是一个使用 Java 写的爬虫的简单例子。
首先,我们需要准备一些工具,比如用于发送 HTTP 请求的库和用于解析 HTML 的库。这里我们可以使用 Apache HttpComponents 和 JSoup。
先来安装这两个库,可以在项目的 build.gradle 文件中添加如下依赖:
dependencies {implementation 'org.apache.httpcomponents:httpclient:4.5.10'
implementation 'org.jsoup:jsoup:1.13.1'
}
然后我们可以开始编写代码了。
首先,我们需要创建一个 HttpClient 对象,用于发送 HTTP 请求:
CloseableHttpClient httpClient= HttpClients.createDefault();
然后我们可以使用 HttpClient 发送一个 GET 请求,获取目标网页的 HTML 内容:
HttpGet httpGet= new HttpGet("http://example.com");
CloseableHttpResponse response = httpClient.execute(httpGet);
HttpEntity entity = response.getEntity();
String html = EntityUtils.toString(entity);
接着,我们可以使用 JSoup 解析 HTML 内容,提取我们需要的信息。
Document doc = Jsoup.parse(html);// 获取页面的标题
String title = doc.title();
// 获取页面的所有链接
Elements links = doc.select("a[href]");
for (Element link : links) {
String linkUrl = link.attr("abs:href");
String linkText = link.text();
}
这样,我们就可以使用 Java 编写一个爬虫了。
希望这对你有帮助!