java爬虫登录_Java爬虫中怎么爬取需要登录的网站

最新推荐文章于 2024-08-16 10:35:54 发布

AS思远

最新推荐文章于 2024-08-16 10:35:54 发布

阅读量2.9k

点赞数 6

文章标签： java爬虫登录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29671137/article/details/114159207

版权

本文详细介绍了Java爬虫如何处理需要登录的网站，包括手动设置Cookie和模拟登录两种方式。通过模拟登录豆瓣网，展示了Jsoup和HttpClient的使用，强调模拟登录在长期采集数据时的优势。

摘要由CSDN通过智能技术生成

Java爬虫中怎么爬取需要登录的网站

发布时间：2021-02-02 14:36:43

来源：亿速云

阅读：80

作者：小新

这篇文章主要介绍Java爬虫中怎么爬取需要登录的网站，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

在做爬虫时，遇到需要登陆的问题也比较常见，比如写脚本抢票之类的，但凡需要个人信息的都需要登陆，对于这类问题主要有两种解决方式：一种方式是手动设置 cookie ，就是先在网站上面登录，复制登陆后的 cookies ，在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性，这种方式适用于采集频次不高、采集周期短，因为 cookie 会失效，如果长期采集的话就需要频繁设置 cookie，这不是一种可行的办法，第二种方式就是使用程序模拟登陆，通过模拟登陆获取到 cookies，这种方式适用于长期采集该网站，因为每次采集都会先登陆，这样就不需要担心 cookie 过期的问题。

为了能让大家更好的理解这两种方式的运用，我以获取豆瓣个人主页昵称为例，分别用这两种方式来获取需要登陆后才能看到的信息。获取信息如下图所示：

获取图片中的缺心眼那叫单纯，这个信息显然是需要登陆后才能看到的，这就符合我们的主题啦。接下来分别用上面两种办法来解决这个问题。

手动设置 cookie

手动设置 cookie 的方式，这种方式比较简单，我们只需要在豆瓣网上登陆，登陆成功后就可以获取到带有用户信息的cookie，豆瓣网登录链接：https://accounts.douban.com/passport/login。如下图所示：

图中的这个 cookie 就携带了用户信息，我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式，具体代码如下：/**

* 手动设置 cookies

* 先从网站上登录，然后查看 request headers 里面的 cookies

* @param url

* @throws IOException

*/

public void setCookies(String url) throws IOException {

Document document = Jsoup.connect(url)

// 手动设置cookies

.header("Cookie", "your cookies")

.get();

//

if (document != null) {

<

最低0.47元/天解锁文章

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。