引文: 抓取一个网站上的全部链接
首先感谢这篇文章,我从中了解到如何通过HttpURLConnection类爬取网站的数据。不过既然有Jsoup这样现成的爬虫开发包,我将用其重新实现链接中对于所有链接的递归数据抓取。
演示代码(附备注)
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.*;
import java.net.URLDecoder;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class WebPageSource2 {
private static final String HINDI_WIKIHOME = "https://hi.wikipedia.org/wiki/%E0%A4%AE%E0%A5%81%E0%A4%96%E0%A4%AA%E0%A5%83%E0%A4%B7%E0%A5%8D%E0%A4%A0";
private static final String OUTPATH = "D:\\xxx\\xxx\\xxxxx";
public static void main(String[] args) thr