jsoup的基础应用

jsoup是一项简单的爬虫技术简洁的发送请求方法以及强大jquery解析网页,下面来介绍它获取网页的方以及解析和选中节点。
1. 添加头部信息
2. 添加cookie:.cookie(“”, “”)
3. 添加头部.header(“”, “”)
4. 添加上一页位置:.referrer(“”)
5. 添加浏览器标识:.userAgent(“”)
6. 设置请求发送方式:.method(Method.POST)、.method(Method.GET)
7. 设置网页超时时间.timeout(3000) 单位毫秒
8. 请求为POST时参数设置:.data(“参数名”,”参数值”)

网页请求分get请求和post请求;
Document doc=Jsoup.connect("www.baidu.com")
.data("参数名","参数值") //浏览器的参数,post需要的参数从这里添加
.userAgent("Mozilla") //用于服务器识别你是什么浏览器从而伪装自己
.cookie("auth", "token") //添加cookie,需要登陆的网站要验证登陆需要的参数
.timeout(3000) //网络超时间,小于网页返回时间时有超时异常
.post(); //发送请求的方式

网页解析
利用css选择器:
Element e1=doc.getElementById(“元素id”); //单个元素
Elements e2=doc.getElementsByClass(“元素class”);//多个元素
伪类选择器:
doc.select(“td:matches(^登录$)”); //正则匹配 匹配登录的td
doc.select(“td:contains(字符)”); //包含某个字符`
doc.select(“p[attr~=regex]”); //attr(属性名)属性值满足正则表达式的p元素
doc.select(“tr:matches(^登录)~tr”); //选中tr以登录开头以下所有的tr
doc.select(“td:has(登录)”); //包含登录的td
doc.select(“td:not(登录)”); //不包含登录的td

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值