转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/19168917
这篇博客属于博客 http://blog.csdn.net/xiaojimanman/article/details/19158815 的拓展,建议阅读此篇博客前先阅读上一篇博客。
上一篇博客介绍了关于笑话集网站的自动采集,这篇将对其进行扩展,介绍多内涵吧内涵段子的自动采集。
上一篇博客已经详细的介绍了几个基础类,现在就只取构建子类,来实现内涵吧内涵段子的采集。
内涵吧内涵段子采集入口类Neihan8Crawl 这里的没有实现抓取程序的周期性采集,这里可以根据自己的需要来写相应的线程。
/**
*@Description:
*/
package cn.lulei.crawl.neihan8;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashSet;
import cn.lulei.db.neihan8.Neihan8DbOperation;
import cn.lulei.model.Neihan8;
import cn.lulei.util.ParseUtil;
import cn.lulei.util.ThreadUtil;
public class Neihan8Crawl {
//内涵吧更新列表页url格式
private static String listPageUrl = "http://www.neihan8.com/article/list_5_%pno%.html";
//两次访问页面事件间隔,单位ms
private static int sleepTime = 500;
/**
* @param start 起始页
* @param end 终止页
* @throws IOException
* @Date: 2014-2-13
* @Author: lulei
* @Description: 抓取更新列表页上的内容
*/
public void crawlMain(int start, int end) throws IOException{
start = start < 1 ? 1 : start;
Neihan8DbOperation neihan8DbOperation = new Neihan8DbOperation();
for ( ; start <= end; start++) {
ThreadUtil.sleep(slee