爬虫(crawler):是一种按照一定的规则,自动抓取万维网信息的程序或者脚本
HttpClient方式
以get请求方式进行举例:
引入jar包:httpclient
@Test
public void test() throws Exception{
// 创建HttpClient对象
CloseableHttpClient httpClient = HttpClients.createDefault();
// 创建网络请求对象
HttpGet httpGet = new HttpGet("http://www.oschina.net/");
// 执行爬取,并且获得结果
CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
// 处理爬取结果
if (httpResponse.getStatusLine().getStatusCode()==200){
// 响应状态为200,处理爬取结果
HttpEntity entity = httpResponse.getEntity();
// 结果转化
String toString = EntityUtils.toString(entity, "utf-8");
System.out.println(toString);
}
// 关闭相关资源
httpResponse.close();
httpClient.close();
}
Jsoup方式
引入jar包:jsoup -->commons-lang3+commons-io (工具包)
这是一款专门解析 html 页面的技术,所以有个硬性技能,就是要求会使用jquery\Selector选择器,否则标签你都选不对,更何况爬?
列举常用的规则:
tagname: 通过标签查找元素,比如:span
#id: 通过 ID 查找元素,比如:# city_1
.class: 通过 class 名称查找元素,比如:.class_a
[attribute]: 利用属性查找元素,比如:[abc]
[attr=value]: 利用属性值来查找元素,比如:[class=s_name]
列举几个复杂的组合选择: