jsoup之页面解析

通过java不用正则表达式,实现对页面标签的过滤或解析。
我们平时上网用的浏览器,除了根据用户输入的url完成通信,还要解析执行javascript代码浏览器在发送http请求时,会在头部里面加入很多信息,比如Cookie/userAgent等。所以网站可以根据这些信息来确定这个请求时正常的用户请求还是爬虫集群请求,对于后者,为了减轻网站压力服务器通常不予回应,所以该系统在使用jsoup工具时,会附上猎豹浏览器真实的userAgent,降低失败率浏览器在拿到网页以后,会执行javascript代码,有一些代码会再次让浏览器发送请求,拿到一些内容来展现在网页上。因为jsoup不能执行javascript代码,所有会出现它拿到的内容少于真实内容的情形。

一、添加依赖包

		<dependency>
			<groupId>org.jsoup</groupId>		
			<artifactId>jsoup</artifactId>
			<version>1.6.3</version>
		</dependency>

二、常用类说明
1、获取url页面信息的post方法也get方法示例如下:

Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").data("name", "jsoup").get();
Document doc = Jsoup.connect("http://example.com").cookie("auth", "token").post();

2、获取此元

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值