网络爬虫爬取全国省市区（动态ip代理的获取，实现对ip限制的突破）

本文链接：https://blog.csdn.net/chen1chen2chen3/article/details/52152712

记得还是在学校的时候听说过网络爬虫的，最近闲的蛋疼，想到爬虫这个稀奇的玩意儿感觉挺好玩的，所以就动手做了个

在起初的爬取中用的httpClient进行爬取的，发现越用越麻烦，代码过于繁琐而且解析html太麻烦，抱着应该有更好的框架可以用的心态，上网搜到了Jsoup这个神奇

项目中用到的包结构

项目使用Jsoup进行网络的链接与网页的解析，使用dbutils进行dao操作，使用c3p0进行链接的管理

源代码下载地址：http://download.csdn.net/detail/chen1chen2chen3/9598202点击打开链接

爬虫程序的入口：

package com.crawlercity.main;


import org.jsoup.nodes.Document;

import com.crawlercity.util.HttpUtils;
import com.crawlercity.util.JsoupUtils;

public class Main {
	public static void main(String[] args) {
		String url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html";// 初始解析网页地址
		// 设置代理ip
		HttpUtils.setProxyIp();
		Document document = JsoupUtils.getDocument(url);// 得到的document一定是正常 的document
		JsoupUtils.analysisDocument(document);
		
	}
}

用于动态ip代理的工具类HttpUtils