定时抓取网页连接,提取网页内容,存入数据库

该博客介绍了一个程序,用于定时抓取指定网页链接,提取页面内容并将其存储到数据库中。程序首先获取网页内容,然后根据条件筛选出目标链接,遍历这些链接并解析正文,最后将解析的内容存入数据库。
摘要由CSDN通过智能技术生成
流程
  1. 提供要抓取的网页地址(列表)
  2. 提取网页列表中目标所有LINK
  3. 抓取LINK中的所有网页(爬虫)
  4. 解析正文内容
  5. 存入数据库

一、抓取任务(主程序)
  1. package com.test;
  2. import java.text.SimpleDateFormat;
  3. import java.util.Date;
  4. import java.util.List;
  5. public class CatchJob {
  6.     
  7.     public String catchJob(String url){
  8.         
  9.         String document= null;
  10.         List allLinks = null;
  11.         try {
  12.             
  13. //          获取网页内容 
  14.             document = ExtractPage.getContentByUrl(url);
  15. //          获取页面指定内容的Link
  16.             allLinks = ExtractPage.getLinksByConditions(document, "http://www.free9.net/others/gift/");
  17.             if(allLinks!=null&&!allLinks.isEmpty()){
  18.                 for(int i=0;i<allLinks.size();i++){
  19.                     String link = (String)allLinks.get(i);
  20.                     String content = ExtractPage.getContentByUrl(link);
  21.                     ExtractPage.readByHtml(content);
  22.                 }           
  23.             }
  24.             
  25.         } catch
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值