Java获取网页下超链接并保存

本文介绍如何使用Java编程实现一个简单的爬虫,该爬虫从输入的起始URL开始,抓取页面上的超链接,并仅下载一级页面。主要依赖Pattern类和正则表达式来匹配和提取HTML中的链接。
摘要由CSDN通过智能技术生成

 把本程序改造为一个输入一个起始URL及其参数之后就可以下载此URL及其参数所指定的WEB页面以及此WEB页面中HTML语言超级链接所指向的所有WEB页面(只下载一级即可)。
主要需要利用Pattern类方法和正则表达式来获取超链接

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

class HtmlParser1 {
   
    String htmlUrl;
    ArrayList<String> hrefList = new ArrayList();
    String charSet;

    public HtmlParser1(String htmlUrl) {
   
        // TODO 自动生成的构造函数存根
        this.htmlUrl = htmlUrl;
    }

    public ArrayList<String> parser() throws IOException {
     //获得该网页下的超链接
        URL url = new URL(htmlUrl);           //创建URL对象,建立连接
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setDoOutput(true);
        String contenttype = connection.getContentType(
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值