上午弄了一篇 Python 爬取 CSDN 博客的文章:Python:爬取 CSDN 博客,突发奇想,使用 Java 也写了一套代码,没有使用任何框架。
// 注意,此处没有 package
import java.io.File;
import java.io.IOException;
import java.io.PrintWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class PostCSDN {
private static final String PRE_URL = "https://blog.csdn.net/";
private static final String SUF_URL = "/article/list/";
private static final String PRE_HTML = "<!DOCTYPE html><html><head><meta charset='UTF-8'><title>个人博客</title></head><body>";
private static final String SUF_HTML = "</body></h