以我做的一个项目中的需求为例子,
需求:爬虫一个网页,将这个网页的内容解析,解析完将这个网页下载到我们自己的服务器保存。然后通过ftp上传到另一个服务器作为外部资源给别人访问。
我们就爬一个百度新闻作为测试:http://qijunjie.baijia.baidu.com/article/825950
简单的代码:
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.UnsupportedEncodingException;
import java.util.Random;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*
* @author kxl
*
*/
public class CrawlNews {
public static void main(String[] args) {
String url="http://qijunjie.baijia.baidu.com/article/825950";
doCrawlNews(url);
}
public static boolean doCrawlNews(String url) {
boolean downloadSuccess=false;
Document doc = null;