Java获取网页下超链接并保存

最新推荐文章于 2024-07-13 02:51:28 发布

张林濮

最新推荐文章于 2024-07-13 02:51:28 发布

阅读量2.4k

点赞数 1

分类专栏： Java

本文链接：https://blog.csdn.net/Ramer42/article/details/83443688

版权

本文介绍如何使用Java编程实现一个简单的爬虫，该爬虫从输入的起始URL开始，抓取页面上的超链接，并仅下载一级页面。主要依赖Pattern类和正则表达式来匹配和提取HTML中的链接。

摘要由CSDN通过智能技术生成

 把本程序改造为一个输入一个起始URL及其参数之后就可以下载此URL及其参数所指定的WEB页面以及此WEB页面中HTML语言超级链接所指向的所有WEB页面（只下载一级即可）。
主要需要利用Pattern类方法和正则表达式来获取超链接

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

class HtmlParser1 {
   
    String htmlUrl;
    ArrayList<String> hrefList = new ArrayList();
    String charSet;

    public HtmlParser1(String htmlUrl) {
   
        // TODO 自动生成的构造函数存根
        this.htmlUrl = htmlUrl;
    }

    public ArrayList<String> parser() throws IOException {
     //获得该网页下的超链接
        URL url = new URL(htmlUrl);           //创建URL对象，建立连接
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setDoOutput(true);
        String contenttype = connection.getContentType(

最低0.47元/天解锁文章

张林濮

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Java获取网页下超链接并保存

 把本程序改造为一个输入一个起始URL及其参数之后就可以下载此URL及其参数所指定的WEB页面以及此WEB页面中HTML语言超级链接所指向的所有WEB页面（只下载一级即可）。主要需要利用Pattern类方法和正则表达式来获取超链接import java.io.*;import java.net.HttpURLConnection;import java.net.URL;import j...
复制链接

扫一扫

专栏目录