通过java不用正则表达式,实现对页面标签的过滤或解析。
我们平时上网用的浏览器,除了根据用户输入的url完成通信,还要解析执行javascript代码浏览器在发送http请求时,会在头部里面加入很多信息,比如Cookie/userAgent等。所以网站可以根据这些信息来确定这个请求时正常的用户请求还是爬虫集群请求,对于后者,为了减轻网站压力服务器通常不予回应,所以该系统在使用jsoup工具时,会附上猎豹浏览器真实的userAgent,降低失败率浏览器在拿到网页以后,会执行javascript代码,有一些代码会再次让浏览器发送请求,拿到一些内容来展现在网页上。因为jsoup不能执行javascript代码,所有会出现它拿到的内容少于真实内容的情形。
一、添加依赖包
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.6.3</version>
</dependency>
二、常用类说明
1、获取url页面信息的post方法也get方法示例如下:
Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").data("name", "jsoup").get();
Document doc = Jsoup.connect("http://example.com").cookie("auth", "token").post();
2、获取此元