网络爬虫总结
爬虫准备
JDK 1.7
Eclipse(或STS)
httpclient 4.3以上版本
jsoup(html解析器)
Chrome(带有开发者工具的浏览器)
请求分析
对爬虫网站进行请求分析。
主要获取请求头、cookie和请求对应的URL。
对于无法直接获取请求URL的请求,比如通过form表单提交的请求,
或者ajax请求,需要通过源码来查看提交的URL地址。
对于POST请求中的请求参数,可以通过Fiddler抓包工具查看。
爬虫代码编写
爬虫通用方法及属性值
首先定义配置属性值:
//请求超时
private static final int TIMEOUT = 20000;
//连接池最大连接数
private static final int MAX_TOTAL = 200;
//路由的默认最大连接数
private static final int MAX_PERROUTE = 2;
//定义 CookieStore 对象,用于保存响应cookie
private static CookieStore cookieStore = new BasicCookieStore();
//定义请求配置对象,并设置相关参数
private static RequestConfig config = RequestConfig.custom()
.setSocketTimeout(TIMEOUT)
.setConnectTimeout(TIMEOUT).setCon