流程
- 提供要抓取的网页地址(列表)
- 提取网页列表中目标所有LINK
- 抓取LINK中的所有网页(爬虫)
- 解析正文内容
- 存入数据库
一、抓取任务(主程序)
- package com.test;
- import java.text.SimpleDateFormat;
- import java.util.Date;
- import java.util.List;
- public class CatchJob {
- public String catchJob(String url){
- String document= null;
- List allLinks = null;
- try {
- // 获取网页内容
- document = ExtractPage.getContentByUrl(url);
- // 获取页面指定内容的Link
- allLinks = ExtractPage.getLinksByConditions(document, "http://www.free9.net/others/gift/");
- if(allLinks!=null&&!allLinks.isEmpty()){
- for(int i=0;i<allLinks.size();i++){
- String link = (String)allLinks.get(i);
- String content = ExtractPage.getContentByUrl(link);
- ExtractPage.readByHtml(content);
- }
- }
- } catch