使用Java+SpringBoot+Jsoup抓取网页固定节点及其兄弟节点内容
1 maven导入jsoup抓取包
<!--配置爬虫 -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.1</version>
</dependency>
2 对网站进行二次处理
这里我们以"http://wenshu.court.gov.cn/content/content?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d"中获取DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d为例子。
String Url=null;
String regEx = "DocID=?";
// 编译正则表达式
Pattern pattern = Pattern.compile(regEx);
// 忽略大小写的写法
// Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
String str="http://wenshu.court.gov.cn/content/content?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d";
Matcher matcher = pattern.matcher(str);
// 字符串是否与正则表达式相匹配
while(matcher.find()) {
//这里写你的后续操作
}
3 地址重新组装
由于直接访问地址并未能获取数据,该页面需要在上述后续操作处加入
Url="http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?"+str.substring(matcher.start());
即改写地址前头才能完成访问。不同网站的改写方式不同,需要借助fidder或者开发人员工具中的network经行查看分析即可。
4 访问头即http头部的组接。
原因:有些网站需要限定固定的头部或者cookie值才可以访问,有些则不必要。
Connection connect = Jsoup.connect(Url); //建立连接
Map<String, String> header = new HashMap<String, String>(); //设置头部map
header.put("Host", "wenshu.court.gov.cn"); //加入数据
header.put("Accept-Encoding:", "gzip, deflate");
header.put("Upgrade-Insecure-Requests", "1");
header.put("Cache-Control", "max-age=0");
header.put("Connection", "keep-alive");
header.put("Accept-Language", "zh-CN,zh;q=0.9");
header.put("Connection", "keep-alive");
//使用get访问连接,有些为post,自己分析的时候看好是post还是get
Document doc = Jsoup.connect("http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d").get();
//返回的doc就是一个html文档
5 选择标签,选择节点
原始的html数据:
<a type="dir" name="PJJG"></a>
<div style="LINE-HEIGHT: 25pt;TEXT-ALIGN:justify;TEXT-JUSTIFY:inter-ideograph; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 仿宋; FONT-SIZE: 16pt;">
被告人王某犯故意伤害罪,判处有期徒刑十个月,缓刑一年。
</div>
思路
我的目标是获取后面那个div,因此先匹配a那个标签,再去找下一个
解决方式
Element pjjg = doc.select(“a[name=PJJG]”).first().nextElementSibling();
//我这里是选取name为PJJG的第一个节点的下一个邻居节点
注意:
1 select选择的标签是elements类,不是element类。
2 我这里因为select只有一个结果,所以我的first就是代表自身了,用我这个的时候必须保证你select出来的结果只有一个。
3 多个结果的时候,就要用get()等方法了。
结果
输出内容
System.out.println(pjjg.html());
//内容为:被告人王某犯故意伤害罪,判处有期徒刑十个月,缓刑一年。