今天突然想写一个网络爬虫爬取一下我自己正在看的小说《圣墟》
小说网址:http://www.biqudu.com/43_43821/
大家也可以用这个去试一试爬取另外的小说。(主要就是写正则表达式,找规律)
我的思路:
1.找到小说章节目录的网址
2.在章节目录的网址中爬取每一章的网址
3.通过每一章的网页爬取每一章节的内容
下面是代码:
package cn.hncu.net.spider;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.junit.Test;
public class SpiderDemo2 {
/**
* @param args
*/
public static void main(String[] args) {
try {
URL mulu=new URL("http://www.biqudu.com/43_43821/");
BufferedReader br=new BufferedReader(new InputStreamReader(mulu.openStream()));
BufferedWriter bw=new BufferedWriter(new FileWriter("abcde.txt"));
String mainContextReg="<dt>《