Java 使用正则表达式和IO实现爬虫以及503解决

最新推荐文章于 2023-07-19 09:45:57 发布

行者老夫

最新推荐文章于 2023-07-19 09:45:57 发布

阅读量461

点赞数

分类专栏： # java 多线程正则表达式 # java IO 流文章标签：正则表达式 java 列表

本文链接：https://blog.csdn.net/qq_39827033/article/details/105524067

版权

本文介绍了使用Java通过正则表达式和IO实现爬虫的过程，包括获取小说章节URL、内容提取和多线程封装。在遇到503错误时采取重试策略。测试结果显示爬取内容能成功写入本地，适合在移动设备上阅读。建议寻找更易爬取的网站，并寻求改善503错误处理的方法。

摘要由CSDN通过智能技术生成

我这边找了个小说网站：
在这里插入图片描述

基本套路：

第一步：获取小说每一章的url地址
在这里插入图片描述
第二步：获取章节url内容并使用正则表达式提取需要的内容

第三步：多线程封装，实现如下效果

最后测试。

代码：

内容获取封装：

public class WebSpider {
   
	//<a href="/35/35971/13555631.html"> 第1章:边哨惨案 </a> -->{"/35/35971/13555631.html","第1章:边哨惨案"}
	// 存放所有章节列表和标题 
	private List<String[]> urlList;
	// 指定下载的跟目录
	private String rootDir;
	// 指定编码
	private String encoding;
	public WebSpider() {
   
		urlList = new ArrayList<String[]>();
	}
	public WebSpider(String titleUrl, Map<String, String> regexMap, String rootDir, String encoding) {
   
		this();
		this.rootDir = rootDir;
		this.encoding = encoding;
		initUrlList(titleUrl, regexMap);
	}

	/**
	 * 初始化小说所有章节列表 在构造方法中调用
	 * @param url
	 * @param regexMap
	 */
	private void initUrlList(String url, Map<String, String> regexMap) {
   
		StringBuffer sb = getContent(url, this.encoding);
		int urlIndex = Integer.parseInt(regexMap.get("urlIndex"));
		int titleIndex = Integer.parseInt(regexMap.get("titleIndex"));
		Pattern p = Pattern.compile(regexMap.get("regex"));
		Matcher m = p.matcher(sb);
		while (m.find()) {
   
			String[] strs = {
    m.group(urlIndex), m.group(titleIndex) };
			this.urlList.add(strs);
		}
	}

	/**
	 * 获取文本内容
	 * 
	 * @param urlPath
	 * @param enc
	 * @return
	 */
	public StringBuffer getContent(String urlPath, String enc) {
   
		StringBuffer strBuf;
		class Result{
   
			StringBuffer sb;
			public Result() {
   
				BufferedReader reader = null;
				HttpURLConnection conn = null;
				try {
   
					URL url = new URL(urlPath);