定时抓取网页连接,提取网页内容,存入数据库

最新推荐文章于 2024-04-04 18:35:14 发布

JUDYLOVELD

最新推荐文章于 2024-04-04 18:35:14 发布

阅读量1w

点赞数

分类专栏： JAVA 文章标签： string 数据库 html url date 任务

本文链接：https://blog.csdn.net/JUDYLOVELD/article/details/3477222

版权

该博客介绍了一个程序，用于定时抓取指定网页链接，提取页面内容并将其存储到数据库中。程序首先获取网页内容，然后根据条件筛选出目标链接，遍历这些链接并解析正文，最后将解析的内容存入数据库。

摘要由CSDN通过智能技术生成

流程

提供要抓取的网页地址（列表）
提取网页列表中目标所有LINK
抓取LINK中的所有网页(爬虫)
解析正文内容
存入数据库

一、抓取任务（主程序）

 
   package com.test;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.List;
public class CatchJob {
     
    
    public String catchJob(String url){
     
        
        String document= null;
        List allLinks = null;
        try {
     
            
//          获取网页内容 
            document = ExtractPage.getContentByUrl(url);
//          获取页面指定内容的Link
            allLinks = ExtractPage.getLinksByConditions(document, "http://www.free9.net/others/gift/");
            if(allLinks!=null&&!allLinks.isEmpty()){
     
                for(int i=0;i<allLinks.size();i++){
     
                    String link = (String)allLinks.get(i);
                    String content = ExtractPage.getContentByUrl(link);
                    ExtractPage.readByHtml(content);
                }           
            }
            
        } catch

  

最低0.47元/天解锁文章