java爬取网站中所有网页的源代码和链接

最新推荐文章于 2024-05-15 05:05:27 发布

小唐/

最新推荐文章于 2024-05-15 05:05:27 发布

阅读量2.7k

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/qq_38217506/article/details/89682134

版权

主要使用递归遍历完成对每个网页内链接的获取和源码的获取，然后剔除重复链接

主要使用txt文件储存

根据网址的路径生成想应文件路径

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * java实现爬虫
 */
public class SpiderDemo1 {

    //网站主网页链接
    private final static String theURL = "http://www.jyyishu.cn";
    //今日日期，用于标记日志
    private final static String theTIME = new SimpleDateFormat("yyyy-MM-dd").format(new Date());
    //网页链接文件路径
    private final static String theFILE = "F:/html/jy1/" + theTIME + "/URL.txt";
    //网页源码路径
    private final static String thePATH = "F:/html/jy1/" + theTIME + "/code";
    //正则表达式，用于判断是否是一个网址
    private final static String theREGEX= "(http|https)://[\\w+\\.?/?]+\\.[A-Za-z]+";

    /**
     * 启动类
     * &#

最低0.47元/天解锁文章

小唐/

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
java爬取网站中所有网页的源代码和链接

主要使用递归遍历完成对每个网页内链接的获取和源码的获取，然后剔除重复链接主要使用txt文件储存根据网址的路径生成想应文件路径import java.io.*;import java.net.URL;import java.net.URLConnection;import java.text.SimpleDateFormat;import java.util.Date;im...
复制链接

扫一扫