Jsoup爬虫解析网页,爬取登陆网页
- 导入依赖
<!--解析網頁 jsoup tika-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.2</version>
</dependency>
- 代码编写
我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式,具体代码如下:
/**
* 手动设置 cookies
* 先从网站上登录,然后查看 request headers 里面的 cookies
* @param url
* @throws IOException
*/
public void setCookies(String url) throws IOException {
Document document = Jsoup.connect(url)
// 手动设置cookies
.header("Cookie", "your cookies")
.get();
//
if (document != null) {
// 获取节点
Element element = document.select(".info h1").first();
if (element == null) {
System.out.println("没有找到 .info h1 标签");
return;
}
// 取出昵称
String userName = element.ownText();
System.out.println("我的网名为:" + userName);
} else {
System.out.println("出错啦!!!!!");
}
}
从代码中可以看出跟不需要登陆的网站没什么区别,只是多了一个.header(“Cookie”, “your cookies”)