记得还是在学校的时候听说过网络爬虫的,最近闲的蛋疼,想到爬虫这个稀奇的玩意儿感觉挺好玩的,所以就动手做了个
在起初的爬取中用的httpClient进行爬取的,发现越用越麻烦,代码过于繁琐而且解析html太麻烦,抱着应该有更好的框架可以用的心态,上网搜到了Jsoup这个神奇
项目中用到的包结构
项目使用Jsoup进行网络的链接与网页的解析,使用dbutils进行dao操作,使用c3p0进行链接的管理
源代码下载地址:http://download.csdn.net/detail/chen1chen2chen3/9598202点击打开链接
爬虫程序的入口:
package com.crawlercity.main;
import org.jsoup.nodes.Document;
import com.crawlercity.util.HttpUtils;
import com.crawlercity.util.JsoupUtils;
public class Main {
public static void main(String[] args) {
String url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html";// 初始解析网页地址
// 设置代理ip
HttpUtils.setProxyIp();
Document document = JsoupUtils.getDocument(url);// 得到的document一定是正常 的document
JsoupUtils.analysisDocument(document);
}
}
用于动态ip代理的工具类HttpUtils