2021-06-21——Jsoup爬虫解析网页,爬取登陆网页

Jsoup爬虫解析网页,爬取登陆网页

  1. 导入依赖
<!--解析網頁 jsoup tika-->
  <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.11.2</version>
  </dependency>
  1. 代码编写

我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式,具体代码如下:

/**
 * 手动设置 cookies
 * 先从网站上登录,然后查看 request headers 里面的 cookies
 * @param url
 * @throws IOException
 */
public void setCookies(String url) throws IOException {
 
    Document document = Jsoup.connect(url)
            // 手动设置cookies
            .header("Cookie", "your cookies")
            .get();
    //
    if (document != null) {
        // 获取节点
        Element element = document.select(".info h1").first();
        if (element == null) {
            System.out.println("没有找到 .info h1 标签");
            return;
        }
        // 取出昵称
        String userName = element.ownText();
        System.out.println("我的网名为:" + userName);
    } else {
        System.out.println("出错啦!!!!!");
    }
}

从代码中可以看出跟不需要登陆的网站没什么区别,只是多了一个.header(“Cookie”, “your cookies”)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值