使用Java+SpringBoot+Jsoup抓取网页固定节点及其兄弟节点内容

使用Java+SpringBoot+Jsoup抓取网页固定节点及其兄弟节点内容

1 maven导入jsoup抓取包

	<!--配置爬虫 -->
		<dependency>
   			  <groupId>org.jsoup</groupId>
  			  <artifactId>jsoup</artifactId>
  			  <version>1.10.1</version>
		</dependency>

2 对网站进行二次处理
这里我们以"http://wenshu.court.gov.cn/content/content?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d"中获取DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d为例子。

	String Url=null;
		   String regEx = "DocID=?";
		   // 编译正则表达式
		    Pattern pattern = Pattern.compile(regEx);
		    // 忽略大小写的写法
		    // Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
		    String str="http://wenshu.court.gov.cn/content/content?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d";
		    Matcher matcher = pattern.matcher(str);
		    // 字符串是否与正则表达式相匹配
		    while(matcher.find()) {
				//这里写你的后续操作 
		    }

3 地址重新组装
由于直接访问地址并未能获取数据,该页面需要在上述后续操作处加入
Url="http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?"+str.substring(matcher.start());
即改写地址前头才能完成访问。不同网站的改写方式不同,需要借助fidder或者开发人员工具中的network经行查看分析即可。

4 访问头即http头部的组接。
原因:有些网站需要限定固定的头部或者cookie值才可以访问,有些则不必要。

Connection connect = Jsoup.connect(Url); 							 //建立连接
    Map<String, String> header = new HashMap<String, String>();    //设置头部map
    header.put("Host", "wenshu.court.gov.cn"); 					//加入数据
    header.put("Accept-Encoding:", "gzip, deflate");
    header.put("Upgrade-Insecure-Requests", "1");
    header.put("Cache-Control", "max-age=0");
    header.put("Connection", "keep-alive");
    header.put("Accept-Language", "zh-CN,zh;q=0.9");
    header.put("Connection", "keep-alive");
  //使用get访问连接,有些为post,自己分析的时候看好是post还是get
    Document doc = Jsoup.connect("http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=b064c697-3866-4966-a7ea-7e1aaf5a924d").get();     
   //返回的doc就是一个html文档

5 选择标签,选择节点

原始的html数据:

  <a type="dir" name="PJJG"></a>
  <div style="LINE-HEIGHT: 25pt;TEXT-ALIGN:justify;TEXT-JUSTIFY:inter-ideograph; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 仿宋; FONT-SIZE: 16pt;">
   被告人王某犯故意伤害罪,判处有期徒刑十个月,缓刑一年。
  </div>

思路
我的目标是获取后面那个div,因此先匹配a那个标签,再去找下一个

解决方式
Element pjjg = doc.select(“a[name=PJJG]”).first().nextElementSibling();
//我这里是选取name为PJJG的第一个节点的下一个邻居节点

注意:
1 select选择的标签是elements类,不是element类。

2 我这里因为select只有一个结果,所以我的first就是代表自身了,用我这个的时候必须保证你select出来的结果只有一个。

3 多个结果的时候,就要用get()等方法了。

结果
输出内容
System.out.println(pjjg.html());
//内容为:被告人王某犯故意伤害罪,判处有期徒刑十个月,缓刑一年。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值