我这边找了个小说网站:
基本套路:
第一步:获取小说每一章的url地址
第二步:获取章节url内容并使用正则表达式提取需要的内容
第三步:多线程封装,实现如下效果
最后测试。
代码:
内容获取封装:
public class WebSpider {
//<a href="/35/35971/13555631.html"> 第1章:边哨惨案 </a> -->{"/35/35971/13555631.html","第1章:边哨惨案"}
// 存放所有章节列表和标题
private List<String[]> urlList;
// 指定下载的跟目录
private String rootDir;
// 指定编码
private String encoding;
public WebSpider() {
urlList = new ArrayList<String[]>();
}
public WebSpider(String titleUrl, Map<String, String> regexMap, String rootDir, String encoding) {
this();
this.rootDir = rootDir;
this.encoding = encoding;
initUrlList(titleUrl, regexMap);
}
/**
* 初始化小说所有章节列表 在构造方法中调用
* @param url
* @param regexMap
*/
private void initUrlList(String url, Map<String, String> regexMap) {
StringBuffer sb = getContent(url, this.encoding);
int urlIndex = Integer.parseInt(regexMap.get("urlIndex"));
int titleIndex = Integer.parseInt(regexMap.get("titleIndex"));
Pattern p = Pattern.compile(regexMap.get("regex"));
Matcher m = p.matcher(sb);
while (m.find()) {
String[] strs = {
m.group(urlIndex), m.group(titleIndex) };
this.urlList.add(strs);
}
}
/**
* 获取文本内容
*
* @param urlPath
* @param enc
* @return
*/
public StringBuffer getContent(String urlPath, String enc) {
StringBuffer strBuf;
class Result{
StringBuffer sb;
public Result() {
BufferedReader reader = null;
HttpURLConnection conn = null;
try {
URL url = new URL(urlPath);